डीपसीक-आर1 एआई मॉडल को स्वयं तर्क करना कैसे सिखाया गया | व्याख्या | Current Affairs | Vision IAS
मेनू
होम

यूपीएससी सिविल सेवा परीक्षा के लिए प्रासंगिक राष्ट्रीय और अंतर्राष्ट्रीय विकास पर समय-समय पर तैयार किए गए लेख और अपडेट।

त्वरित लिंक

High-quality MCQs and Mains Answer Writing to sharpen skills and reinforce learning every day.

महत्वपूर्ण यूपीएससी विषयों पर डीप डाइव, मास्टर क्लासेस आदि जैसी पहलों के तहत व्याख्यात्मक और विषयगत अवधारणा-निर्माण वीडियो देखें।

करंट अफेयर्स कार्यक्रम

यूपीएससी की तैयारी के लिए हमारे सभी प्रमुख, आधार और उन्नत पाठ्यक्रमों का एक व्यापक अवलोकन।

ESC

Daily News Summary

Get concise and efficient summaries of key articles from prominent newspapers. Our daily news digest ensures quick reading and easy understanding, helping you stay informed about important events and developments without spending hours going through full articles. Perfect for focused and timely updates.

News Summary

Sun Mon Tue Wed Thu Fri Sat

डीपसीक-आर1 एआई मॉडल को स्वयं तर्क करना कैसे सिखाया गया | व्याख्या

19 Sep 2025
1 min

कृत्रिम बुद्धिमत्ता तर्क में प्रगति

कृत्रिम बुद्धिमत्ता (AI) में हालिया प्रगति ने मशीनी तर्क क्षमताएँ विकसित करने पर ध्यान केंद्रित किया है। इसमें केवल तथ्यों को याद रखना ही शामिल नहीं है; इसमें मानवीय तर्क की तरह ही चरणों का पालन करना, गलतियों पर विचार करना और समस्या-समाधान के लिए रणनीतियों को समायोजित करना भी शामिल है।

बड़े भाषा मॉडल (LLM) और तर्क

  • GPT-4 और डीपसीक-V3 जैसे LLM बड़े पैमाने पर तर्क के संकेत प्रदर्शित करते हैं।
  • विचार-श्रृंखला प्रेरणा एक ऐसी विधि है जिसमें मॉडलों को चरण-दर-चरण सोचने के लिए प्रोत्साहित किया जाता है, जिससे प्रदर्शन में सुधार होता है।
  • अपनी क्षमता के बावजूद, ये विधियां मानव-जनित उदाहरणों पर निर्भर करती हैं जो महंगी, धीमी हैं, तथा मॉडल की रचनात्मकता को सीमित करती हैं।

डीपसीक-AI का R1 मॉडल

डीपसीक-AI का शोध, मानवीय उदाहरणों के बिना AI तर्क सिखाने के लिए एक अभूतपूर्व दृष्टिकोण प्रस्तुत करता है, जिससे मॉडल को सुदृढीकरण सीखने के माध्यम से स्वयं को सिखाने की अनुमति मिलती है।

  • समूह सापेक्ष नीति अनुकूलन नामक एक नवीन सुदृढीकरण सीखने की विधि का उपयोग किया गया।
  • आर1 मॉडल ने लंबी तर्क श्रृंखलाएं लिखकर तथा "प्रतीक्षा करें" या "आइए पुनः प्रयास करें" जैसे चिंतनशील वाक्यांशों का उपयोग करके तर्क और आत्म-सुधार का प्रदर्शन किया।
  • विशेष रूप से गणित में महत्वपूर्ण सुधार देखा गया, AIME 2024 परीक्षा में सटीकता 15.6% से बढ़कर 86.7% हो गई।

AI में सुदृढीकरण सीखने के लाभ

  • सुदृढीकरण सीखने से R1 को चिंतन और सत्यापन जैसे व्यवहार विकसित करने में सक्षम बनाया गया, जो तर्क के आवश्यक घटक हैं।
  • मॉडल ने कार्य की कठिनाई के आधार पर कम्प्यूटेशनल प्रयासों को गतिशील रूप से आवंटित किया, जिससे संसाधन उपयोग को अनुकूलित किया गया।
  • R1 ने मानवीय प्राथमिकताओं के साथ अधिक निकटता से तालमेल बिठाया, जिससे अल्पाकाएवल 2.0 और एरीना-हार्ड पर अनुदेश-अनुपालन बेंचमार्क में इसके प्रदर्शन में क्रमशः 25% और 17% का सुधार हुआ।

निहितार्थ और भविष्य की संभावनाएं

निष्कर्ष बताते हैं कि उपयुक्त डिज़ाइन के साथ, सुदृढीकरण अधिगम स्वतंत्र रूप से तर्कपूर्ण व्यवहारों को प्रेरित कर सकता है, जिससे मानव-लिखित डेटा पर निर्भरता कम हो सकती है। यह निम्नलिखित तरीकों से एआई प्रशिक्षण प्रतिमानों को बदल सकता है:

  • बड़े मानव-लेबल वाले डेटासेट की आवश्यकता को कम करना, जो महंगे और अक्सर शोषणकारी होते हैं।
  • मॉडलों को स्वायत्त रूप से रणनीति और रचनात्मकता विकसित करने की अनुमति देना।

फिर भी, अध्ययन यह स्वीकार करता है कि स्पष्ट सत्यापन विधियों के बिना कार्यों के लिए मानवीय इनपुट महत्वपूर्ण बना हुआ है और हानिकारक सामग्री उत्पन्न होने से बचाने के लिए खुले कार्यों के लिए मज़बूत इनाम संकेतों की आवश्यकता पर ज़ोर देता है। व्यापक प्रश्न यह है: यदि प्रोत्साहनों से तर्क उत्पन्न हो सकता है, तो क्या इसी तरह के तरीके एआई रचनात्मकता और गहरी समझ को विकसित कर सकते हैं?

Title is required. Maximum 500 characters.

Search Notes

Filter Notes

Loading your notes...
Searching your notes...
Loading more notes...
You've reached the end of your notes

No notes yet

Create your first note to get started.

No notes found

Try adjusting your search criteria or clear the search.

Saving...
Saved

Please select a subject.

Referenced Articles

linked

No references added yet

Subscribe for Premium Features