कृत्रिम बुद्धिमत्ता तर्क में प्रगति
कृत्रिम बुद्धिमत्ता (AI) में हालिया प्रगति ने मशीनी तर्क क्षमताएँ विकसित करने पर ध्यान केंद्रित किया है। इसमें केवल तथ्यों को याद रखना ही शामिल नहीं है; इसमें मानवीय तर्क की तरह ही चरणों का पालन करना, गलतियों पर विचार करना और समस्या-समाधान के लिए रणनीतियों को समायोजित करना भी शामिल है।
बड़े भाषा मॉडल (LLM) और तर्क
- GPT-4 और डीपसीक-V3 जैसे LLM बड़े पैमाने पर तर्क के संकेत प्रदर्शित करते हैं।
- विचार-श्रृंखला प्रेरणा एक ऐसी विधि है जिसमें मॉडलों को चरण-दर-चरण सोचने के लिए प्रोत्साहित किया जाता है, जिससे प्रदर्शन में सुधार होता है।
- अपनी क्षमता के बावजूद, ये विधियां मानव-जनित उदाहरणों पर निर्भर करती हैं जो महंगी, धीमी हैं, तथा मॉडल की रचनात्मकता को सीमित करती हैं।
डीपसीक-AI का R1 मॉडल
डीपसीक-AI का शोध, मानवीय उदाहरणों के बिना AI तर्क सिखाने के लिए एक अभूतपूर्व दृष्टिकोण प्रस्तुत करता है, जिससे मॉडल को सुदृढीकरण सीखने के माध्यम से स्वयं को सिखाने की अनुमति मिलती है।
- समूह सापेक्ष नीति अनुकूलन नामक एक नवीन सुदृढीकरण सीखने की विधि का उपयोग किया गया।
- आर1 मॉडल ने लंबी तर्क श्रृंखलाएं लिखकर तथा "प्रतीक्षा करें" या "आइए पुनः प्रयास करें" जैसे चिंतनशील वाक्यांशों का उपयोग करके तर्क और आत्म-सुधार का प्रदर्शन किया।
- विशेष रूप से गणित में महत्वपूर्ण सुधार देखा गया, AIME 2024 परीक्षा में सटीकता 15.6% से बढ़कर 86.7% हो गई।
AI में सुदृढीकरण सीखने के लाभ
- सुदृढीकरण सीखने से R1 को चिंतन और सत्यापन जैसे व्यवहार विकसित करने में सक्षम बनाया गया, जो तर्क के आवश्यक घटक हैं।
- मॉडल ने कार्य की कठिनाई के आधार पर कम्प्यूटेशनल प्रयासों को गतिशील रूप से आवंटित किया, जिससे संसाधन उपयोग को अनुकूलित किया गया।
- R1 ने मानवीय प्राथमिकताओं के साथ अधिक निकटता से तालमेल बिठाया, जिससे अल्पाकाएवल 2.0 और एरीना-हार्ड पर अनुदेश-अनुपालन बेंचमार्क में इसके प्रदर्शन में क्रमशः 25% और 17% का सुधार हुआ।
निहितार्थ और भविष्य की संभावनाएं
निष्कर्ष बताते हैं कि उपयुक्त डिज़ाइन के साथ, सुदृढीकरण अधिगम स्वतंत्र रूप से तर्कपूर्ण व्यवहारों को प्रेरित कर सकता है, जिससे मानव-लिखित डेटा पर निर्भरता कम हो सकती है। यह निम्नलिखित तरीकों से एआई प्रशिक्षण प्रतिमानों को बदल सकता है:
- बड़े मानव-लेबल वाले डेटासेट की आवश्यकता को कम करना, जो महंगे और अक्सर शोषणकारी होते हैं।
- मॉडलों को स्वायत्त रूप से रणनीति और रचनात्मकता विकसित करने की अनुमति देना।
फिर भी, अध्ययन यह स्वीकार करता है कि स्पष्ट सत्यापन विधियों के बिना कार्यों के लिए मानवीय इनपुट महत्वपूर्ण बना हुआ है और हानिकारक सामग्री उत्पन्न होने से बचाने के लिए खुले कार्यों के लिए मज़बूत इनाम संकेतों की आवश्यकता पर ज़ोर देता है। व्यापक प्रश्न यह है: यदि प्रोत्साहनों से तर्क उत्पन्न हो सकता है, तो क्या इसी तरह के तरीके एआई रचनात्मकता और गहरी समझ को विकसित कर सकते हैं?