भारत सरकार का AI विकास पर जोर
इस साल की शुरुआत से ही, भारत सरकार कृत्रिम बुद्धिमत्ता (AI) के क्षेत्र में अपने प्रयासों को तेज़ कर रही है। इस पहल का एक महत्वपूर्ण हिस्सा इंडियाAI मिशन के तहत लगभग ₹10,000 करोड़ का आवंटन है, जिसमें GPU के लिए सब्सिडी और स्वदेशी एआई मॉडल विकसित करने के लिए प्रोत्साहन शामिल हैं। इस मिशन का उद्देश्य भारत की विविध भाषाई ज़रूरतों को पूरा करने वाले AI मॉडल के विकास को बढ़ावा देना है।
भारतीय भाषा मॉडल बनाने में चुनौतियाँ
- एआई मॉडलों के प्रशिक्षण के लिए आवश्यक विभिन्न भारतीय भाषाओं में डेटा की कमी के कारण स्टार्टअप्स को बड़ी चुनौती का सामना करना पड़ रहा है।
- बिना अनुमति के डेटा एकत्र करने वाले AI क्रॉलर्स को ब्लॉक किया जा रहा है, जिससे डेटा संग्रह प्रक्रिया जटिल हो रही है।
- इन चुनौतियों से निपटने के लिए स्टार्टअप्स भाषा विशेषज्ञों और प्रकाशन गृहों के साथ सहयोग कर रहे हैं।
डेटा संग्रह के वैकल्पिक दृष्टिकोण
- सोकेट लैब्स कॉमन क्रॉल फाउंडेशन जैसे संसाधनों का उपयोग करती है और डेटा के लिए भारतीय भाषाओं में अनुवाद, ऑनलाइन सामग्री और मल्टीमीडिया सामग्री की खोज करती है।
- गुजराती और उर्दू जैसी भाषाओं के लिए प्रकाशन गृहों से सामग्री का लाइसेंस लेने का प्रयास किया जा रहा है।
- Gnani.ai भारतीय भाषा की सामग्री को क्राउडसोर्स करता है और अपनी डेटा लाइब्रेरी बनाने के लिए वॉयस डोनेशन मांगता है।
- भारतGPT मॉडल प्रशिक्षण के लिए अनुमति के साथ क्लाइंट डेटा का उपयोग करता है।
विशिष्ट समस्याओं पर ध्यान केंद्रित करें
- Gnani.ai बड़े कमोडिटीकृत भाषा मॉडल बनाने के बजाय, विशिष्ट मुद्दों को हल करने पर जोर देता है, जैसे कि भावनात्मक आवाज एआई बॉट विकसित करना।
- उच्च गुणवत्ता वाले डेटा को संग्रहित करना प्राथमिकता है, तथा सोकेट लैब्स ने प्रभावी प्रशिक्षण के लिए 20 ट्रिलियन टोकन की आवश्यकता पर प्रकाश डाला है।
प्रतिस्पर्धा और लागत चुनौतियाँ
- भारतीय स्टार्टअप्स ओपनएआई और जेमिनी जैसी कंपनियों के एआई मॉडल की गुणवत्ता से मेल खाने के लिए संघर्ष कर रहे हैं।
- आधारभूत एआई मॉडल का निर्माण महंगा है, जिसके लिए अरबों डॉलर के निवेश की आवश्यकता होती है, जो एक ऐसा संसाधन है जिसकी भारतीय स्टार्टअप्स के पास कमी है।
इंडियाएआई मिशन में शामिल कंपनियां
- सर्वम एआई: शासन और सार्वजनिक सेवा पहुंच को बढ़ाने के लिए 120 बिलियन पैरामीटर ओपन-सोर्स एआई मॉडल।
- Gan.ai: टेक्स्ट-टू-स्पीच पर केंद्रित 70 बिलियन पैरामीटर मॉडल।
- सोकेट लैब्स: 120 बिलियन ओपन-सोर्स पैरामीटर फाउंडेशन मॉडल जो रक्षा और स्वास्थ्य सेवा जैसे क्षेत्रों में भाषाई विविधता पर ध्यान केंद्रित करता है।
- Gnani.ai: 14 बिलियन पैरामीटर वाला वॉयस AI मॉडल जो बहुभाषी है और वास्तविक समय में भाषण को संसाधित करता है।
भारतीय भाषा मॉडल के लिए डेटा उपलब्धता
- AI4Bharat: 22 भाषाओं में 251 बिलियन टोकन इंडिक भाषा डेटा, 10 ट्रिलियन टोकन एकत्र करने की योजना।
- AIKosh: कृषि, कला, वित्त और ऊर्जा जैसे क्षेत्रों में डेटासेट प्रदान करता है।
- भाष्य वाणी परियोजना: IISc, आर्टपार्क और गूगल के नेतृत्व में, जिसका लक्ष्य भारत के 773 जिलों के 10 लाख लोगों के 150,000 घंटों के भाषण का डेटासेट तैयार करना है।
AI मॉडल के प्रशिक्षण के लिए अन्य डेटासेट
- सामान्य क्रॉल: वेब क्रॉलर प्रत्येक माह 250 टेराबाइट डेटा उत्पन्न करते हैं।
- फाइनवेब-एडु: बहुत उच्च शैक्षिक सामग्री के 1.3 ट्रिलियन टोकन और उच्च शैक्षिक सामग्री के 5.4 ट्रिलियन टोकन प्रदान करता है।
- स्टैक-V2: कोडिंग डेटा के 900 बिलियन टोकन प्रदान करता है।
- कॉस्मोपीडिया: सिंथेटिक पाठ के 25 बिलियन टोकन प्रदान करता है।