Link copied successfully!

Daily News Summary

Get concise and efficient summaries of key articles from prominent newspapers. Our daily news digest ensures quick reading and easy understanding, helping you stay informed about important events and developments without spending hours going through full articles. Perfect for focused and timely updates.

News Summary

Sun Mon Tue Wed Thu Fri Sat

Newspaper

द ग्रेट इंडिया डेटा हंट

Posted 16 Sep 2025

1 minread

Follow on Google

भारत सरकार का AI विकास पर जोर

इस साल की शुरुआत से ही, भारत सरकार कृत्रिम बुद्धिमत्ता (AI) के क्षेत्र में अपने प्रयासों को तेज़ कर रही है। इस पहल का एक महत्वपूर्ण हिस्सा इंडियाAI मिशन के तहत लगभग ₹10,000 करोड़ का आवंटन है, जिसमें GPU के लिए सब्सिडी और स्वदेशी एआई मॉडल विकसित करने के लिए प्रोत्साहन शामिल हैं। इस मिशन का उद्देश्य भारत की विविध भाषाई ज़रूरतों को पूरा करने वाले AI मॉडल के विकास को बढ़ावा देना है।

भारतीय भाषा मॉडल बनाने में चुनौतियाँ

एआई मॉडलों के प्रशिक्षण के लिए आवश्यक विभिन्न भारतीय भाषाओं में डेटा की कमी के कारण स्टार्टअप्स को बड़ी चुनौती का सामना करना पड़ रहा है।
बिना अनुमति के डेटा एकत्र करने वाले AI क्रॉलर्स को ब्लॉक किया जा रहा है, जिससे डेटा संग्रह प्रक्रिया जटिल हो रही है।
इन चुनौतियों से निपटने के लिए स्टार्टअप्स भाषा विशेषज्ञों और प्रकाशन गृहों के साथ सहयोग कर रहे हैं।

डेटा संग्रह के वैकल्पिक दृष्टिकोण

सोकेट लैब्स कॉमन क्रॉल फाउंडेशन जैसे संसाधनों का उपयोग करती है और डेटा के लिए भारतीय भाषाओं में अनुवाद, ऑनलाइन सामग्री और मल्टीमीडिया सामग्री की खोज करती है।
गुजराती और उर्दू जैसी भाषाओं के लिए प्रकाशन गृहों से सामग्री का लाइसेंस लेने का प्रयास किया जा रहा है।
Gnani.ai भारतीय भाषा की सामग्री को क्राउडसोर्स करता है और अपनी डेटा लाइब्रेरी बनाने के लिए वॉयस डोनेशन मांगता है।
भारतGPT मॉडल प्रशिक्षण के लिए अनुमति के साथ क्लाइंट डेटा का उपयोग करता है।

विशिष्ट समस्याओं पर ध्यान केंद्रित करें

Gnani.ai बड़े कमोडिटीकृत भाषा मॉडल बनाने के बजाय, विशिष्ट मुद्दों को हल करने पर जोर देता है, जैसे कि भावनात्मक आवाज एआई बॉट विकसित करना।
उच्च गुणवत्ता वाले डेटा को संग्रहित करना प्राथमिकता है, तथा सोकेट लैब्स ने प्रभावी प्रशिक्षण के लिए 20 ट्रिलियन टोकन की आवश्यकता पर प्रकाश डाला है।

प्रतिस्पर्धा और लागत चुनौतियाँ

भारतीय स्टार्टअप्स ओपनएआई और जेमिनी जैसी कंपनियों के एआई मॉडल की गुणवत्ता से मेल खाने के लिए संघर्ष कर रहे हैं।
आधारभूत एआई मॉडल का निर्माण महंगा है, जिसके लिए अरबों डॉलर के निवेश की आवश्यकता होती है, जो एक ऐसा संसाधन है जिसकी भारतीय स्टार्टअप्स के पास कमी है।

इंडियाएआई मिशन में शामिल कंपनियां

सर्वम एआई: शासन और सार्वजनिक सेवा पहुंच को बढ़ाने के लिए 120 बिलियन पैरामीटर ओपन-सोर्स एआई मॉडल।
Gan.ai: टेक्स्ट-टू-स्पीच पर केंद्रित 70 बिलियन पैरामीटर मॉडल।
सोकेट लैब्स: 120 बिलियन ओपन-सोर्स पैरामीटर फाउंडेशन मॉडल जो रक्षा और स्वास्थ्य सेवा जैसे क्षेत्रों में भाषाई विविधता पर ध्यान केंद्रित करता है।
Gnani.ai: 14 बिलियन पैरामीटर वाला वॉयस AI मॉडल जो बहुभाषी है और वास्तविक समय में भाषण को संसाधित करता है।

भारतीय भाषा मॉडल के लिए डेटा उपलब्धता

AI4Bharat: 22 भाषाओं में 251 बिलियन टोकन इंडिक भाषा डेटा, 10 ट्रिलियन टोकन एकत्र करने की योजना।
AIKosh: कृषि, कला, वित्त और ऊर्जा जैसे क्षेत्रों में डेटासेट प्रदान करता है।
भाष्य वाणी परियोजना: IISc, आर्टपार्क और गूगल के नेतृत्व में, जिसका लक्ष्य भारत के 773 जिलों के 10 लाख लोगों के 150,000 घंटों के भाषण का डेटासेट तैयार करना है।

AI मॉडल के प्रशिक्षण के लिए अन्य डेटासेट

सामान्य क्रॉल: वेब क्रॉलर प्रत्येक माह 250 टेराबाइट डेटा उत्पन्न करते हैं।
फाइनवेब-एडु: बहुत उच्च शैक्षिक सामग्री के 1.3 ट्रिलियन टोकन और उच्च शैक्षिक सामग्री के 5.4 ट्रिलियन टोकन प्रदान करता है।
स्टैक-V2: कोडिंग डेटा के 900 बिलियन टोकन प्रदान करता है।
कॉस्मोपीडिया: सिंथेटिक पाठ के 25 बिलियन टोकन प्रदान करता है।

Tags:

AI Development Indic Language Models

Articles Sources

https://economictimes.indiatimes.com/epaper/delhicapital/2025/sep/16/eye-on-ai/the-great-india-data-

विश्व व्यापार संगठन बाधा न बने, बल्कि स्वास्थ्य की ओर ले जाए

प्रधानमंत्री मोदी ने कमांडरों की बैठक में संयुक्तता और नवाचार पर जोर दिया

Explore Related Content

Discover more articles, videos, and terms related to this topic

Search Notes

Filter Notes

Subject

Topic

Loading your notes...

Searching your notes...

Loading more notes...

You've reached the end of your notes

No notes yet

Create your first note to get started.

No notes found

Try adjusting your search criteria or clear the search.

Saving...

Saved

Subject *

Please select a subject.

Topic

Referenced Articles

linked

No references added yet

Your Success Starts Here • Upgrade to Premium Today

Notes Ecosystem

Connect With Us

हिंदी