जब हमें लगा कि AI की दुनिया ‘वर्ल्ड मॉडल्स’ के शोर से भर चुकी है, तभी NVIDIA ने एक ऐसा धमाका किया है जो डिजिटल स्क्रीन से निकलकर हमारी असली भौतिक दुनिया को बदलने का दम रखता है। मिलिए DreamZero से—एक 14-बिलियन पैरामीटर वाला रोबोट फाउंडेशन मॉडल, जो महज एक टेक्स्ट कमांड सुनकर वह काम भी कर सकता है जिसके लिए उसे कभी खास तौर पर ट्रेनिंग नहीं दी गई। इसे “वर्ल्ड एक्शन मॉडल” (WAM) कहा जा रहा है, और इसका असली जादू यह है कि यह किसी भी टास्क को पूरा करने से पहले अपने ‘दिमाग’ में उसके सफल होने का एक वीडियो ‘सपना’ (dream) देखता है। फिर उसी विजुअल के आधार पर वह अपने मोटर कंट्रोल्स को निर्देश देता है ताकि वह कल्पना हकीकत बन सके।
इसकी सबसे बड़ी खूबी इसकी सीखने की हैरतअंगेज रफ़्तार है। DreamZero किसी बिल्कुल नए और अनजाने रोबोट को सिर्फ 55 प्रदर्शनों (demonstration trajectories) के जरिए काम सिखा सकता है। तकनीकी भाषा में कहें तो एक इंसान को उस मशीन को सिर्फ 30 मिनट तक रिमोट से चलाकर दिखाना होगा। यह रोबोटिक्स के पुराने दौर के मुकाबले एक बहुत बड़ी छलांग है, जहाँ एक छोटा सा हुनर सिखाने के लिए भी सैकड़ों घंटों की ट्रेनिंग लगती थी। NVIDIA की रिसर्च के मुताबिक, नए टास्क और नए माहौल में ढलने के मामले में DreamZero पुराने ‘Vision-Language-Action’ (VLA) मॉडल्स के मुकाबले दोगुना बेहतर प्रदर्शन करता है। जूतों के फीते खोलने से लेकर हाथ मिलाने तक, यह रोबोट हर मुश्किल काम को चुटकियों में अंजाम दे रहा है, जिसे आप इसकी आधिकारिक प्रोजेक्ट वेबसाइट पर देख सकते हैं।
इस प्रोजेक्ट ने रोबोटिक्स की दुनिया के दो पुराने मिथकों को भी तोड़ दिया है। पहला यह कि ‘वर्ल्ड एक्शन मॉडल्स’ के लिए एक ही काम को बार-बार रटने से कहीं ज्यादा जरूरी डेटा की विविधता (diversity) है। दूसरा यह कि अलग-अलग तरह के रोबोटिक शरीरों के बीच हुनर का तबादला (cross-embodiment) करने के लिए ‘वीडियो’ सबसे बेहतरीन जरिया है। वीडियो एक ऐसी ‘यूनिवर्सल भाषा’ साबित हुआ है जो न सिर्फ एक रोबोट से दूसरे रोबोट में, बल्कि इंसान से रोबोट में भी स्किल्स को आसानी से ट्रांसफर कर देता है। NVIDIA ने दरियादिली दिखाते हुए इस मॉडल और इसके वेट्स (weights) को GitHub पर ओपन-सोर्स कर दिया है, ताकि पूरी रोबोटिक्स कम्युनिटी इस नई नींव पर अपनी तरक्की की मीनार खड़ी कर सके।
आखिर यह इतना अहम क्यों है?
DreamZero रोबोटिक लर्निंग के नजरिए में एक बुनियादी बदलाव है। अब हम उस दौर से बाहर निकल रहे हैं जहाँ हर छोटे काम के लिए रोबोट को कोड करना पड़ता था—जो कि एक बेहद थकाऊ और सीमित तरीका था। अब इंडस्ट्री ऐसे ‘जेनरलिट’ मॉडल्स की ओर बढ़ रही है जो मौके पर ही खुद को ढाल सकें। वीडियो के जरिए दुनिया की भौतिकी (physics) समझकर, ये मॉडल्स ऐसे काम भी कर सकते हैं जो इन्होंने ट्रेनिंग के दौरान कभी देखे ही नहीं थे।
खुद रिसर्चर्स ने इसकी तुलना रोबोटिक्स के “GPT-2 युग” से की है। यानी यह अभी पूरी तरह परफेक्ट तो नहीं है, लेकिन यह वह क्रांतिकारी कदम है जो आने वाले समय में रोबोट्स को हमारे घरों और फैक्ट्रियों का हिस्सा बना देगा। NVIDIA अब रोबोट को सिर्फ कोई ‘नौकरी’ नहीं सिखा रहा, बल्कि उसे ‘सीखने की काबिलियत’ दे रहा है।













