Select Your Preferred Language

Please choose your language to continue.

द ग्रेट इंडिया डेटा हंट | Current Affairs | Vision IAS

Daily News Summary

Get concise and efficient summaries of key articles from prominent newspapers. Our daily news digest ensures quick reading and easy understanding, helping you stay informed about important events and developments without spending hours going through full articles. Perfect for focused and timely updates.

News Summary

Sun Mon Tue Wed Thu Fri Sat

द ग्रेट इंडिया डेटा हंट

1 min read

भारत सरकार का AI विकास पर जोर

इस साल की शुरुआत से ही, भारत सरकार कृत्रिम बुद्धिमत्ता (AI) के क्षेत्र में अपने प्रयासों को तेज़ कर रही है। इस पहल का एक महत्वपूर्ण हिस्सा इंडियाAI मिशन के तहत लगभग ₹10,000 करोड़ का आवंटन है, जिसमें GPU के लिए सब्सिडी और स्वदेशी एआई मॉडल विकसित करने के लिए प्रोत्साहन शामिल हैं। इस मिशन का उद्देश्य भारत की विविध भाषाई ज़रूरतों को पूरा करने वाले AI मॉडल के विकास को बढ़ावा देना है।

भारतीय भाषा मॉडल बनाने में चुनौतियाँ

  • एआई मॉडलों के प्रशिक्षण के लिए आवश्यक विभिन्न भारतीय भाषाओं में डेटा की कमी के कारण स्टार्टअप्स को बड़ी चुनौती का सामना करना पड़ रहा है।
  • बिना अनुमति के डेटा एकत्र करने वाले AI क्रॉलर्स को ब्लॉक किया जा रहा है, जिससे डेटा संग्रह प्रक्रिया जटिल हो रही है।
  • इन चुनौतियों से निपटने के लिए स्टार्टअप्स भाषा विशेषज्ञों और प्रकाशन गृहों के साथ सहयोग कर रहे हैं।

डेटा संग्रह के वैकल्पिक दृष्टिकोण

  • सोकेट लैब्स कॉमन क्रॉल फाउंडेशन जैसे संसाधनों का उपयोग करती है और डेटा के लिए भारतीय भाषाओं में अनुवाद, ऑनलाइन सामग्री और मल्टीमीडिया सामग्री की खोज करती है।
  • गुजराती और उर्दू जैसी भाषाओं के लिए प्रकाशन गृहों से सामग्री का लाइसेंस लेने का प्रयास किया जा रहा है।
  • Gnani.ai भारतीय भाषा की सामग्री को क्राउडसोर्स करता है और अपनी डेटा लाइब्रेरी बनाने के लिए वॉयस डोनेशन मांगता है।
  • भारतGPT मॉडल प्रशिक्षण के लिए अनुमति के साथ क्लाइंट डेटा का उपयोग करता है।

विशिष्ट समस्याओं पर ध्यान केंद्रित करें

  • Gnani.ai बड़े कमोडिटीकृत भाषा मॉडल बनाने के बजाय, विशिष्ट मुद्दों को हल करने पर जोर देता है, जैसे कि भावनात्मक आवाज एआई बॉट विकसित करना।
  • उच्च गुणवत्ता वाले डेटा को संग्रहित करना प्राथमिकता है, तथा सोकेट लैब्स ने प्रभावी प्रशिक्षण के लिए 20 ट्रिलियन टोकन की आवश्यकता पर प्रकाश डाला है।

प्रतिस्पर्धा और लागत चुनौतियाँ

  • भारतीय स्टार्टअप्स ओपनएआई और जेमिनी जैसी कंपनियों के एआई मॉडल की गुणवत्ता से मेल खाने के लिए संघर्ष कर रहे हैं।
  • आधारभूत एआई मॉडल का निर्माण महंगा है, जिसके लिए अरबों डॉलर के निवेश की आवश्यकता होती है, जो एक ऐसा संसाधन है जिसकी भारतीय स्टार्टअप्स के पास कमी है।

इंडियाएआई मिशन में शामिल कंपनियां

  • सर्वम एआई: शासन और सार्वजनिक सेवा पहुंच को बढ़ाने के लिए 120 बिलियन पैरामीटर ओपन-सोर्स एआई मॉडल।
  • Gan.ai: टेक्स्ट-टू-स्पीच पर केंद्रित 70 बिलियन पैरामीटर मॉडल।
  • सोकेट लैब्स: 120 बिलियन ओपन-सोर्स पैरामीटर फाउंडेशन मॉडल जो रक्षा और स्वास्थ्य सेवा जैसे क्षेत्रों में भाषाई विविधता पर ध्यान केंद्रित करता है।
  • Gnani.ai: 14 बिलियन पैरामीटर वाला वॉयस AI मॉडल जो बहुभाषी है और वास्तविक समय में भाषण को संसाधित करता है।

भारतीय भाषा मॉडल के लिए डेटा उपलब्धता

  • AI4Bharat: 22 भाषाओं में 251 बिलियन टोकन इंडिक भाषा डेटा, 10 ट्रिलियन टोकन एकत्र करने की योजना।
  • AIKosh: कृषि, कला, वित्त और ऊर्जा जैसे क्षेत्रों में डेटासेट प्रदान करता है।
  • भाष्य वाणी परियोजना: IISc, आर्टपार्क और गूगल के नेतृत्व में, जिसका लक्ष्य भारत के 773 जिलों के 10 लाख लोगों के 150,000 घंटों के भाषण का डेटासेट तैयार करना है।

AI मॉडल के प्रशिक्षण के लिए अन्य डेटासेट

  • सामान्य क्रॉल: वेब क्रॉलर प्रत्येक माह 250 टेराबाइट डेटा उत्पन्न करते हैं।
  • फाइनवेब-एडु: बहुत उच्च शैक्षिक सामग्री के 1.3 ट्रिलियन टोकन और उच्च शैक्षिक सामग्री के 5.4 ट्रिलियन टोकन प्रदान करता है।
  • स्टैक-V2: कोडिंग डेटा के 900 बिलियन टोकन प्रदान करता है।
  • कॉस्मोपीडिया: सिंथेटिक पाठ के 25 बिलियन टोकन प्रदान करता है।
  • Tags :
  • AI Development
  • Indic Language Models
Subscribe for Premium Features

Quick Start

Use our Quick Start guide to learn about everything this platform can do for you.
Get Started