1X का NEO रोबोट: बिना थकाऊ ट्रेनिंग, अब वीडियो देखकर सीखेगा काम

रोबोटिक्स इंडस्ट्री का एक ऐसा ‘डर्टी सीक्रेट’ है जिसे कोई भी खुलकर बताना नहीं चाहता: रोबोट को कोई भी काम का हुनर सिखाना किसी सिरदर्द से कम नहीं है—यह प्रक्रिया न केवल कछुए की रफ्तार से चलती है, बल्कि इसमें पैसा भी पानी की तरह बहता है। सालों से दुनिया यही मानकर चल रही थी कि रोबोट को स्मार्ट बनाने का इकलौता तरीका ‘Vision-Language-Action’ मॉडल्स (VLAs) हैं। इसमें इंसानों को हजारों घंटों तक रोबोट को कठपुतली की तरह नचाना पड़ता है ताकि वह हर छोटे-बड़े काम को समझ सके। डेटा जुटाने का यह तरीका किसी बड़ी रुकावट (bottleneck) से कम नहीं था।

लेकिन अब, रोबोटिक्स फर्म 1X ने एक ऐसा समाधान पेश किया है जो इस इंडस्ट्री के पुराने नियमों को चुनौती दे रहा है। उनके NEO ह्युमनोइड रोबोट के लिए अपनाया गया यह नया तरीका सुनने में बहुत सीधा लगता है: रोबोट को रटा-रटाया सबक देना बंद करो और उसे इंटरनेट की उस विशाल और अराजक लाइब्रेरी से सीखने दो, जिसे हम ‘इंसानी व्यवहार’ कहते हैं। यह सिर्फ एक मामूली अपडेट नहीं है; यह रोबोट के हुनर सीखने के तरीके में एक बुनियादी बदलाव है।

बीते कल का ‘डेटा का भूखा’ सिस्टम

1X ने जो लंबी छलांग लगाई है, उसे समझने के लिए मौजूदा हालात को समझना जरूरी है। रोबोटिक्स के आज के ज्यादातर मॉडल्स, चाहे वह Figure का Helix हो या Nvidia का GR00T, सभी VLAs पर आधारित हैं। ये मॉडल्स ताकतवर तो हैं, लेकिन इन्हें रोबोट-स्पेसिफिक हाई-क्वालिटी डेटा की जबरदस्त भूख रहती है। इसका मतलब है कि लोगों को हजारों घंटों तक रोबोट को ‘टेली-ऑपरेट’ (रिमोट से कंट्रोल) करना पड़ता है ताकि वह कप उठाना या तौलिया मोड़ना सीख सके।

यही वजह है कि हम अब तक ऐसे रोबोट नहीं बना पाए जो हर काम में माहिर हों। यह तरीका महंगा है, इसे बड़े पैमाने पर लागू करना मुश्किल है, और इसके नतीजे भी कई बार कमजोर निकलते हैं। अगर रोबोट के सामने कोई ऐसी चीज या माहौल आ जाए जो उसने पहले न देखा हो, तो वह अक्सर फेल हो जाता है। यह बिल्कुल वैसा ही है जैसे किसी बच्चे को खाना बनाना सिखाने के लिए आप उसे सिर्फ अपनी रसोई में कैद रखें, बजाय इसके कि उसे दुनिया भर के कुकिंग शो देखने की आजादी दें।

pi*0.6 के वेबपेज का एक स्क्रीनशॉट, जो विजन-लैंग्वेज-एक्शन मॉडल का एक उदाहरण है जो अनुभव से सीखता है।

खयाली पुलाव नहीं, काम की बात

1X World Model (1XWM) ने पुरानी रवायतों को किनारे कर दिया है। भाषा को सीधे एक्शन से जोड़ने के बजाय, यह ‘टेक्स्ट-कंडीशन्ड वीडियो जनरेशन’ का इस्तेमाल करता है। आसान भाषा में कहें तो, यह रोबोट का एक ‘दो-तरफा दिमाग’ है जो उसे कोई भी कदम उठाने से पहले भविष्य की कल्पना करने की ताकत देता है।

सबसे पहले आता है World Model (WM), जो 14 अरब पैरामीटर्स वाला एक जेनरेटिव वीडियो मॉडल है। यह सिस्टम के ‘कल्पना लोक’ (imagination) की तरह काम करता है। आप NEO को टेक्स्ट कमांड देते हैं—“इस संतरे को लंचबॉक्स में पैक कर दो”—और WM मौजूदा सीन को देखकर एक छोटा सा वीडियो दिमाग में बुन लेता है कि यह काम कैसे पूरा होगा।

इसके बाद काम शुरू होता है Inverse Dynamics Model (IDM) का, जो इस सिस्टम का व्यावहारिक हिस्सा है। यह मॉडल उस ‘काल्पनिक वीडियो’ के हर पिक्सेल का विश्लेषण करता है और उसे मोटर कमांड्स (शारीरिक हलचल) में बदल देता है। यह पूरी प्रक्रिया कई चरणों में सीखी जाती है: पहले मॉडल को इंटरनेट के करोड़ों वीडियो दिखाए जाते हैं, फिर 900 घंटों के ‘इंसानी नजरिए’ वाले वीडियो से ट्रेनिंग दी जाती है, और आखिर में सिर्फ 70 घंटों का NEO-स्पेसिफिक डेटा दिया जाता है ताकि वह अपने खुद के शरीर के हिसाब से ढल सके।

Video thumbnail

इनकी ट्रेनिंग पाइपलाइन में एक कमाल की ट्रिक है जिसे “caption upsampling” कहा जाता है। चूंकि इंटरनेट के कई वीडियो में डिस्क्रिप्शन बहुत छोटा होता है, 1X एक VLM का इस्तेमाल करके उन वीडियो के लिए बेहद विस्तृत और बारीक कैप्शन्स तैयार करता है। इससे मॉडल को जटिल निर्देशों को समझने में आसानी होती है, ठीक वैसे ही जैसे OpenAI के DALL-E 3 ने इमेज जनरेशन में महारत हासिल की थी।

ह्युमनोइड होने का असली फायदा

वीडियो-फर्स्ट अप्रोच का यह पूरा खेल एक बहुत ही बुनियादी बात पर टिका है: रोबोट की बनावट इंसानों जैसी है। 1XWM ने इंसानों को दुनिया के साथ तालमेल बिठाते हुए घंटों देखा है, जिससे उसे भौतिक विज्ञान (physics) की गहरी समझ मिल गई है—जैसे ग्रेविटी, घर्षण (friction) और मोमेंटम। चूंकि NEO का शरीर इंसानों की तरह ही मूव करता है, इसलिए वह इंटरनेट से सीखी गई बातों को सीधे अपनी गतिविधियों में उतार पाता है।

जैसा कि 1X कहता है, हार्डवेयर यहाँ सिर्फ एक ढांचा नहीं बल्कि “AI स्टैक का फर्स्ट-क्लास सिटीजन” है। NEO और इंसान की शारीरिक बनावट में समानता होने का मतलब है कि जो कुछ भी मॉडल ‘विजुअलाइज’ कर सकता है, NEO उसे असल जिंदगी में भी कर सकता है। हार्डवेयर और सॉफ्टवेयर का यह गहरा तालमेल सिमुलेशन और हकीकत के बीच की उस खाई को पाट देता है जहाँ अक्सर रोबोट मात खा जाते हैं।

थ्योरी से हकीकत तक (चुनौतियों के साथ)

नतीजे वाकई हैरान करने वाले हैं। 1XWM की मदद से NEO उन कामों और चीजों को भी संभाल पा रहा है जिनके लिए उसे कभी कोई ट्रेनिंग नहीं दी गई। प्रोमोशनल वीडियो में वह शर्ट पर स्टीम प्रेस करते, पौधों को पानी देते और यहाँ तक कि टॉयलेट सीट ऑपरेट करते हुए दिख रहा है—एक ऐसा काम जिसका उसके पास कोई पिछला डेटा नहीं था। इससे साफ है कि इंसानी वीडियो से उसने दो हाथों का तालमेल और जटिल चीजों को हैंडल करना बखूबी सीख लिया है।

मगर यह कोई जादू नहीं है; इसकी अपनी सीमाएं भी हैं। कई बार जनरेट किया गया ‘काल्पनिक वीडियो’ जरूरत से ज्यादा उम्मीद जगा देता है (overly optimistic), और 3D विजन की कमी के कारण रोबोट असलियत में निशाना चूक सकता है, भले ही उसके ‘दिमाग’ में वीडियो परफेक्ट दिख रहा हो। अनाज (cereal) डालना या स्माइली फेस बनाने जैसे बारीक कामों में अभी भी मुश्किलें आ रही हैं।

फिर भी, 1X ने परफॉरमेंस बढ़ाने का एक शानदार रास्ता खोजा है: “test-time compute”। उदाहरण के लिए, “टिश्यू निकालने” के टास्क में सफलता की दर केवल 30% थी, लेकिन जब सिस्टम को आठ अलग-अलग संभावित भविष्य (video generations) सोचने और उनमें से सबसे बेहतर चुनने का मौका दिया गया, तो यह दर बढ़कर 45% हो गई। फिलहाल यह चुनाव मैन्युअल है, लेकिन भविष्य में एक VLM इवैल्यूएटर इस काम को ऑटोमैटिक कर देगा, जिससे रोबोट की सटीकता कई गुना बढ़ जाएगी।

खुद को सिखाने वाला ‘फ्लाईव्हील’

1XWM केवल एक मामूली अपडेट नहीं है; यह उस डेटा की कमी को खत्म करने वाला एक क्रांतिकारी बदलाव है जिसने रोबोटिक्स की रफ्तार रोक रखी थी। यह एक ऐसा ‘फ्लाईव्हील’ तैयार करता है जहाँ रोबोट खुद को बेहतर बनाता जाता है। अब NEO नए-नए काम करने की कोशिश कर सकता है और हर कोशिश—चाहे वह सफल हो या नाकाम—एक नया ट्रेनिंग डेटा बन जाती है। रोबोट अब खुद अपना उस्ताद बन रहा है।

बेशक, अभी कुछ बड़ी रुकावटें हैं। WM को 5 सेकंड का प्लान बनाने में 11 सेकंड लगते हैं। असल दुनिया के भागदौड़ भरे माहौल में यह देरी बहुत ज्यादा है, खासकर उन कामों के लिए जहाँ तुरंत रिस्पॉन्स देना हो।

फिर भी, डेटा की इस सबसे बड़ी चुनौती को सीधे टक्कर देकर, 1X ने उस भविष्य का दरवाजा खोल दिया है जहाँ रोबोट हमारे बोरिंग निर्देशों से नहीं, बल्कि हमारे साझा अनुभवों और इंटरनेट पर मौजूद करोड़ों वीडियो से सीखेंगे। वह भविष्य अब हर गुजरते वीडियो के साथ और करीब आ रहा है।