
नई दिल्ली: भारतीय एआई (आर्टिफिशिय इंटेलिजेंस) स्टार्टअप सर्वम एआई के नए लॉन्च किए गए बुलबुल वी3 और सर्वम विज़न मॉडल ने 22 भारतीय भाषाओं में टेक्स्ट-टू-स्पीच, ओसीर और डॉक्यूमेंट रीडिंग में ग्लोबल एआई दिग्गज गूगल जेमिनी और चैटजीपीटी को पीछे छोड़ दिया है।
एक भारतीय AI स्टार्टअप ने वह हासिल कर लिया है जिसे कई लोग नामुमकिन समझते थे – ऐसे आर्टिफिशियल इंटेलिजेंस मॉडल बनाना जो भारतीय भाषा प्रोसेसिंग के अहम क्षेत्रों में गूगल के जेमिनी और OpenAI के ChatGPT से बेहतर प्रदर्शन करते हैं, जो देश के घरेलू टेक्नोलॉजी सेक्टर के लिए एक बड़ी उपलब्धि है।
प्रत्यूष कुमार और विवेक राघवन द्वारा 2023 में स्थापित सर्वम AI ने दो बेहतरीन मॉडल लॉन्च किए हैं – टेक्स्ट-टू-स्पीच के लिए बुलबुल V3 और ऑप्टिकल कैरेक्टर रिकग्निशन के लिए सर्वम विज़न – जिन्होंने भारतीय भाषाओं को प्रोसेस करने में जेमिनी प्रो और एलेवनलैब्स सहित ग्लोबल लीडर्स को पीछे छोड़ दिया है। इस उपलब्धि ने भारत सरकार के उच्च स्तरों का ध्यान खींचा है, और एक केंद्रीय मंत्री ने सार्वजनिक रूप से कंपनी के काम की तारीफ की है।
ब्लाइंड स्टडी में जीत
सरवम AI के लेटेस्ट टेक्स्ट-टू-स्पीच मॉडल बुलबुल V3 ने 20,000 से ज़्यादा वोटों के साथ एक ब्लाइंड स्टडी में टॉप किया, जिससे 11 भारतीय भाषाओं को नेचुरल आवाज़ों और बहुत कम एरर रेट के साथ हैंडल करने में इसकी सुपीरियरिटी साबित हुई। इस मॉडल के परफॉर्मेंस की खास तौर पर इसलिए तारीफ़ की गई है क्योंकि यह भारत की भाषाई विविधता की बारीकियों और क्षेत्रीय विभिन्नताओं को पकड़ने में सक्षम है।
यह उपलब्धि इसलिए भी खास है क्योंकि दुनिया की बड़ी AI लैब को आमतौर पर भारतीय भाषाओं के साथ दिक्कतें आती रही हैं, और वे अक्सर अपने डेवलपमेंट रोडमैप में इन्हें सेकेंडरी प्रायोरिटी मानते हैं।
डॉक्यूमेंट रीडिंग में बड़ी सफलता
कंपनी के ऑप्टिकल कैरेक्टर रिकग्निशन मॉडल, सर्वम विज़न ने 22 भारतीय लिपियों में खराब, असल दुनिया के डॉक्यूमेंट्स पर 84.3 प्रतिशत सटीकता हासिल की है – जो भारतीय लेखन प्रणालियों की जटिलता और विभिन्नता को देखते हुए एक महत्वपूर्ण तकनीकी उपलब्धि है। खराब स्कैन किए गए डॉक्यूमेंट्स, हाथ से लिखे टेक्स्ट और मिली-जुली भाषा वाले कंटेंट को संभालने की मॉडल की क्षमता ने डेवलपर्स और कंपनियों का खास ध्यान खींचा है।
हालांकि गूगल के जेमिनी और OpenAI के GPT-4 विज़न जैसे ग्लोबल मॉडल्स ने डॉक्यूमेंट प्रोसेसिंग में काफी प्रगति की है, लेकिन वे ऐतिहासिक रूप से भारतीय लिपियों पर अच्छा प्रदर्शन नहीं कर पाए हैं, खासकर जब कम इस्तेमाल होने वाली भाषाओं या खराब डॉक्यूमेंट क्वालिटी से निपटना हो।
यह सफलता की कहानी चुनौतियों के बिना नहीं रही है। जब कंपनी पहली बार लॉन्च हुई, तो उसे छोटे भारतीय भाषा मॉडल को ट्रेन करने की अपनी शुरुआती दिशा के लिए आलोचना का सामना करना पड़ा। इंडस्ट्री के जानकारों ने सवाल उठाया कि क्या एक खास मार्केट पर ध्यान केंद्रित करना, अच्छी फंडिंग वाले ग्लोबल प्रतिस्पर्धियों के मुकाबले फायदेमंद साबित होगा।
हालांकि, सर्वम AI ने $53 मिलियन की फंडिंग और सरकार द्वारा दिए गए GPU तक पहुंच के साथ एक रणनीतिक बदलाव किया, और अपने प्रयासों को खास उपयोग के मामलों पर फिर से केंद्रित किया, जहां भारतीय भाषाओं ने अद्वितीय तकनीकी चुनौतियां पेश कीं जिन्हें ग्लोबल मॉडल ठीक से संबोधित नहीं कर रहे थे।
एक इंडस्ट्री ऑब्जर्वर ने कहा, “जब मैंने एक साल पहले उनके बारे में लिखा था, तो मुझे लगा था कि छोटे ‘भारतीय’ भाषा मॉडल को ट्रेन करने की दिशा गलत थी। ये खबर आप गज़ब वायरल में पढ़ रहे हैं। लेकिन सच में, उन्होंने इसे पूरी तरह से बदल दिया है।” “उनके पास भारतीय भाषाओं के लिए सबसे अच्छे टेक्स्ट-टू-स्पीच, स्पीच-टू-टेक्स्ट और OCR मॉडल हैं, और यह वास्तव में बहुत मूल्यवान है।”
जबकि सर्वम AI की सफलता को एक भारतीय उपलब्धि के तौर पर मनाया जा रहा है, इसके असर सिर्फ़ राष्ट्रीय गौरव तक ही सीमित नहीं हैं। कंपनी के परफॉर्मेंस से पता चलता है कि जब खास डोमेन में इस्तेमाल किया जाता है, तो फोकस्ड, यूज़-केस-स्पेसिफिक AI मॉडल, ज़्यादा फंडिंग वाले कॉम्पिटिटर्स के जनरल-पर्पस मॉडल के साथ मुकाबला कर सकते हैं और उनसे बेहतर भी प्रदर्शन कर सकते हैं।
GPU एक्सेस के ज़रिए सरकार का सपोर्ट बहुत ज़रूरी रहा है, जिसने भारतीय AI स्टार्टअप्स के सामने आने वाली एक बड़ी रुकावट को दूर किया है – बड़े लैंग्वेज मॉडल को ट्रेन करने के लिए ज़रूरी कंप्यूट रिसोर्स की ज़्यादा लागत।
सर्वम एआई क्या है?
सर्वम AI बेंगलुरु में स्थित एक AI स्टार्टअप है, जिसे 2023 में प्रत्युष कुमार और विवेक राघवन ने शुरू किया था। यह भारतीय भाषाओं के लिए ऑप्टिमाइज़्ड AI मॉडल बनाने पर फोकस करता है। कंपनी ने अब तक फंडिंग में $53 मिलियन जुटाए हैं और GPU एक्सेस के ज़रिए सरकारी मदद भी मिली है। स्टार्टअप के मॉडल वॉइस जेनरेशन के लिए 11 भाषाओं को हैंडल करते हैं और डॉक्यूमेंट प्रोसेसिंग के लिए 22 अलग-अलग भारतीय लिपियों को सपोर्ट करते हैं, जिससे रियल-वर्ल्ड डॉक्यूमेंट्स पर 84.3 प्रतिशत सटीकता हासिल होती है और नेचुरल लगने वाली वॉइस सिंथेसिस के लिए 20,000 से ज़्यादा वोटों के साथ एक ब्लाइंड स्टडी जीती है।





