Select Your Preferred Language

Please choose your language to continue.

डीपसीक-आर1 एआई मॉडल को स्वयं तर्क करना कैसे सिखाया गया | व्याख्या | Current Affairs | Vision IAS

Daily News Summary

Get concise and efficient summaries of key articles from prominent newspapers. Our daily news digest ensures quick reading and easy understanding, helping you stay informed about important events and developments without spending hours going through full articles. Perfect for focused and timely updates.

News Summary

Sun Mon Tue Wed Thu Fri Sat

डीपसीक-आर1 एआई मॉडल को स्वयं तर्क करना कैसे सिखाया गया | व्याख्या

1 min read

कृत्रिम बुद्धिमत्ता तर्क में प्रगति

कृत्रिम बुद्धिमत्ता (AI) में हालिया प्रगति ने मशीनी तर्क क्षमताएँ विकसित करने पर ध्यान केंद्रित किया है। इसमें केवल तथ्यों को याद रखना ही शामिल नहीं है; इसमें मानवीय तर्क की तरह ही चरणों का पालन करना, गलतियों पर विचार करना और समस्या-समाधान के लिए रणनीतियों को समायोजित करना भी शामिल है।

बड़े भाषा मॉडल (LLM) और तर्क

  • GPT-4 और डीपसीक-V3 जैसे LLM बड़े पैमाने पर तर्क के संकेत प्रदर्शित करते हैं।
  • विचार-श्रृंखला प्रेरणा एक ऐसी विधि है जिसमें मॉडलों को चरण-दर-चरण सोचने के लिए प्रोत्साहित किया जाता है, जिससे प्रदर्शन में सुधार होता है।
  • अपनी क्षमता के बावजूद, ये विधियां मानव-जनित उदाहरणों पर निर्भर करती हैं जो महंगी, धीमी हैं, तथा मॉडल की रचनात्मकता को सीमित करती हैं।

डीपसीक-AI का R1 मॉडल

डीपसीक-AI का शोध, मानवीय उदाहरणों के बिना AI तर्क सिखाने के लिए एक अभूतपूर्व दृष्टिकोण प्रस्तुत करता है, जिससे मॉडल को सुदृढीकरण सीखने के माध्यम से स्वयं को सिखाने की अनुमति मिलती है।

  • समूह सापेक्ष नीति अनुकूलन नामक एक नवीन सुदृढीकरण सीखने की विधि का उपयोग किया गया।
  • आर1 मॉडल ने लंबी तर्क श्रृंखलाएं लिखकर तथा "प्रतीक्षा करें" या "आइए पुनः प्रयास करें" जैसे चिंतनशील वाक्यांशों का उपयोग करके तर्क और आत्म-सुधार का प्रदर्शन किया।
  • विशेष रूप से गणित में महत्वपूर्ण सुधार देखा गया, AIME 2024 परीक्षा में सटीकता 15.6% से बढ़कर 86.7% हो गई।

AI में सुदृढीकरण सीखने के लाभ

  • सुदृढीकरण सीखने से R1 को चिंतन और सत्यापन जैसे व्यवहार विकसित करने में सक्षम बनाया गया, जो तर्क के आवश्यक घटक हैं।
  • मॉडल ने कार्य की कठिनाई के आधार पर कम्प्यूटेशनल प्रयासों को गतिशील रूप से आवंटित किया, जिससे संसाधन उपयोग को अनुकूलित किया गया।
  • R1 ने मानवीय प्राथमिकताओं के साथ अधिक निकटता से तालमेल बिठाया, जिससे अल्पाकाएवल 2.0 और एरीना-हार्ड पर अनुदेश-अनुपालन बेंचमार्क में इसके प्रदर्शन में क्रमशः 25% और 17% का सुधार हुआ।

निहितार्थ और भविष्य की संभावनाएं

निष्कर्ष बताते हैं कि उपयुक्त डिज़ाइन के साथ, सुदृढीकरण अधिगम स्वतंत्र रूप से तर्कपूर्ण व्यवहारों को प्रेरित कर सकता है, जिससे मानव-लिखित डेटा पर निर्भरता कम हो सकती है। यह निम्नलिखित तरीकों से एआई प्रशिक्षण प्रतिमानों को बदल सकता है:

  • बड़े मानव-लेबल वाले डेटासेट की आवश्यकता को कम करना, जो महंगे और अक्सर शोषणकारी होते हैं।
  • मॉडलों को स्वायत्त रूप से रणनीति और रचनात्मकता विकसित करने की अनुमति देना।

फिर भी, अध्ययन यह स्वीकार करता है कि स्पष्ट सत्यापन विधियों के बिना कार्यों के लिए मानवीय इनपुट महत्वपूर्ण बना हुआ है और हानिकारक सामग्री उत्पन्न होने से बचाने के लिए खुले कार्यों के लिए मज़बूत इनाम संकेतों की आवश्यकता पर ज़ोर देता है। व्यापक प्रश्न यह है: यदि प्रोत्साहनों से तर्क उत्पन्न हो सकता है, तो क्या इसी तरह के तरीके एआई रचनात्मकता और गहरी समझ को विकसित कर सकते हैं?

  • Tags :
  • Large Language Models (LLMs)
  • Artificial Intelligence Reasoning
  • Chain-of-thought prompting
  • DeepSeek-AI's R1 Model
Subscribe for Premium Features

Quick Start

Use our Quick Start guide to learn about everything this platform can do for you.
Get Started