1X का NEO रोबोट: बिना थकाऊ ट्रेनिंग, अब वीडियो देखकर सीखेगा काम

12 जनवरी 2026

रोबोटिक्स इंडस्ट्री का एक ऐसा ‘डर्टी सीक्रेट’ है जिसे कोई भी खुलकर बताना नहीं चाहता: रोबोट को कोई भी काम का हुनर सिखाना किसी सिरदर्द से कम नहीं है—यह प्रक्रिया न केवल कछुए की रफ्तार से चलती है, बल्कि इसमें पैसा भी पानी की तरह बहता है। सालों से दुनिया यही मानकर चल रही थी कि रोबोट को स्मार्ट बनाने का इकलौता तरीका ‘Vision-Language-Action’ मॉडल्स (VLAs) हैं। इसमें इंसानों को हजारों घंटों तक रोबोट को कठपुतली की तरह नचाना पड़ता है ताकि वह हर छोटे-बड़े काम को समझ सके। डेटा जुटाने का यह तरीका किसी बड़ी रुकावट (bottleneck) से कम नहीं था।

लेकिन अब, रोबोटिक्स फर्म 1X ने एक ऐसा समाधान पेश किया है जो इस इंडस्ट्री के पुराने नियमों को चुनौती दे रहा है। उनके NEO ह्युमनोइड रोबोट के लिए अपनाया गया यह नया तरीका सुनने में बहुत सीधा लगता है: रोबोट को रटा-रटाया सबक देना बंद करो और उसे इंटरनेट की उस विशाल और अराजक लाइब्रेरी से सीखने दो, जिसे हम ‘इंसानी व्यवहार’ कहते हैं। यह सिर्फ एक मामूली अपडेट नहीं है; यह रोबोट के हुनर सीखने के तरीके में एक बुनियादी बदलाव है।

बीते कल का ‘डेटा का भूखा’ सिस्टम

1X ने जो लंबी छलांग लगाई है, उसे समझने के लिए मौजूदा हालात को समझना जरूरी है। रोबोटिक्स के आज के ज्यादातर मॉडल्स, चाहे वह Figure का Helix हो या Nvidia का GR00T, सभी VLAs पर आधारित हैं। ये मॉडल्स ताकतवर तो हैं, लेकिन इन्हें रोबोट-स्पेसिफिक हाई-क्वालिटी डेटा की जबरदस्त भूख रहती है। इसका मतलब है कि लोगों को हजारों घंटों तक रोबोट को ‘टेली-ऑपरेट’ (रिमोट से कंट्रोल) करना पड़ता है ताकि वह कप उठाना या तौलिया मोड़ना सीख सके।

यही वजह है कि हम अब तक ऐसे रोबोट नहीं बना पाए जो हर काम में माहिर हों। यह तरीका महंगा है, इसे बड़े पैमाने पर लागू करना मुश्किल है, और इसके नतीजे भी कई बार कमजोर निकलते हैं। अगर रोबोट के सामने कोई ऐसी चीज या माहौल आ जाए जो उसने पहले न देखा हो, तो वह अक्सर फेल हो जाता है। यह बिल्कुल वैसा ही है जैसे किसी बच्चे को खाना बनाना सिखाने के लिए आप उसे सिर्फ अपनी रसोई में कैद रखें, बजाय इसके कि उसे दुनिया भर के कुकिंग शो देखने की आजादी दें।

pi*0.6 के वेबपेज का एक स्क्रीनशॉट, जो विजन-लैंग्वेज-एक्शन मॉडल का एक उदाहरण है जो अनुभव से सीखता है।

खयाली पुलाव नहीं, काम की बात

1X World Model (1XWM) ने पुरानी रवायतों को किनारे कर दिया है। भाषा को सीधे एक्शन से जोड़ने के बजाय, यह ‘टेक्स्ट-कंडीशन्ड वीडियो जनरेशन’ का इस्तेमाल करता है। आसान भाषा में कहें तो, यह रोबोट का एक ‘दो-तरफा दिमाग’ है जो उसे कोई भी कदम उठाने से पहले भविष्य की कल्पना करने की ताकत देता है।

सबसे पहले आता है World Model (WM), जो 14 अरब पैरामीटर्स वाला एक जेनरेटिव वीडियो मॉडल है। यह सिस्टम के ‘कल्पना लोक’ (imagination) की तरह काम करता है। आप NEO को टेक्स्ट कमांड देते हैं—“इस संतरे को लंचबॉक्स में पैक कर दो”—और WM मौजूदा सीन को देखकर एक छोटा सा वीडियो दिमाग में बुन लेता है कि यह काम कैसे पूरा होगा।

इसके बाद काम शुरू होता है Inverse Dynamics Model (IDM) का, जो इस सिस्टम का व्यावहारिक हिस्सा है। यह मॉडल उस ‘काल्पनिक वीडियो’ के हर पिक्सेल का विश्लेषण करता है और उसे मोटर कमांड्स (शारीरिक हलचल) में बदल देता है। यह पूरी प्रक्रिया कई चरणों में सीखी जाती है: पहले मॉडल को इंटरनेट के करोड़ों वीडियो दिखाए जाते हैं, फिर 900 घंटों के ‘इंसानी नजरिए’ वाले वीडियो से ट्रेनिंग दी जाती है, और आखिर में सिर्फ 70 घंटों का NEO-स्पेसिफिक डेटा दिया जाता है ताकि वह अपने खुद के शरीर के हिसाब से ढल सके।

इनकी ट्रेनिंग पाइपलाइन में एक कमाल की ट्रिक है जिसे “caption upsampling” कहा जाता है। चूंकि इंटरनेट के कई वीडियो में डिस्क्रिप्शन बहुत छोटा होता है, 1X एक VLM का इस्तेमाल करके उन वीडियो के लिए बेहद विस्तृत और बारीक कैप्शन्स तैयार करता है। इससे मॉडल को जटिल निर्देशों को समझने में आसानी होती है, ठीक वैसे ही जैसे OpenAI के DALL-E 3 ने इमेज जनरेशन में महारत हासिल की थी।

ह्युमनोइड होने का असली फायदा

वीडियो-फर्स्ट अप्रोच का यह पूरा खेल एक बहुत ही बुनियादी बात पर टिका है: रोबोट की बनावट इंसानों जैसी है। 1XWM ने इंसानों को दुनिया के साथ तालमेल बिठाते हुए घंटों देखा है, जिससे उसे भौतिक विज्ञान (physics) की गहरी समझ मिल गई है—जैसे ग्रेविटी, घर्षण (friction) और मोमेंटम। चूंकि NEO का शरीर इंसानों की तरह ही मूव करता है, इसलिए वह इंटरनेट से सीखी गई बातों को सीधे अपनी गतिविधियों में उतार पाता है।

जैसा कि 1X कहता है, हार्डवेयर यहाँ सिर्फ एक ढांचा नहीं बल्कि “AI स्टैक का फर्स्ट-क्लास सिटीजन” है। NEO और इंसान की शारीरिक बनावट में समानता होने का मतलब है कि जो कुछ भी मॉडल ‘विजुअलाइज’ कर सकता है, NEO उसे असल जिंदगी में भी कर सकता है। हार्डवेयर और सॉफ्टवेयर का यह गहरा तालमेल सिमुलेशन और हकीकत के बीच की उस खाई को पाट देता है जहाँ अक्सर रोबोट मात खा जाते हैं।

थ्योरी से हकीकत तक (चुनौतियों के साथ)

नतीजे वाकई हैरान करने वाले हैं। 1XWM की मदद से NEO उन कामों और चीजों को भी संभाल पा रहा है जिनके लिए उसे कभी कोई ट्रेनिंग नहीं दी गई। प्रोमोशनल वीडियो में वह शर्ट पर स्टीम प्रेस करते, पौधों को पानी देते और यहाँ तक कि टॉयलेट सीट ऑपरेट करते हुए दिख रहा है—एक ऐसा काम जिसका उसके पास कोई पिछला डेटा नहीं था। इससे साफ है कि इंसानी वीडियो से उसने दो हाथों का तालमेल और जटिल चीजों को हैंडल करना बखूबी सीख लिया है।

मगर यह कोई जादू नहीं है; इसकी अपनी सीमाएं भी हैं। कई बार जनरेट किया गया ‘काल्पनिक वीडियो’ जरूरत से ज्यादा उम्मीद जगा देता है (overly optimistic), और 3D विजन की कमी के कारण रोबोट असलियत में निशाना चूक सकता है, भले ही उसके ‘दिमाग’ में वीडियो परफेक्ट दिख रहा हो। अनाज (cereal) डालना या स्माइली फेस बनाने जैसे बारीक कामों में अभी भी मुश्किलें आ रही हैं।

फिर भी, 1X ने परफॉरमेंस बढ़ाने का एक शानदार रास्ता खोजा है: “test-time compute”। उदाहरण के लिए, “टिश्यू निकालने” के टास्क में सफलता की दर केवल 30% थी, लेकिन जब सिस्टम को आठ अलग-अलग संभावित भविष्य (video generations) सोचने और उनमें से सबसे बेहतर चुनने का मौका दिया गया, तो यह दर बढ़कर 45% हो गई। फिलहाल यह चुनाव मैन्युअल है, लेकिन भविष्य में एक VLM इवैल्यूएटर इस काम को ऑटोमैटिक कर देगा, जिससे रोबोट की सटीकता कई गुना बढ़ जाएगी।

खुद को सिखाने वाला ‘फ्लाईव्हील’

1XWM केवल एक मामूली अपडेट नहीं है; यह उस डेटा की कमी को खत्म करने वाला एक क्रांतिकारी बदलाव है जिसने रोबोटिक्स की रफ्तार रोक रखी थी। यह एक ऐसा ‘फ्लाईव्हील’ तैयार करता है जहाँ रोबोट खुद को बेहतर बनाता जाता है। अब NEO नए-नए काम करने की कोशिश कर सकता है और हर कोशिश—चाहे वह सफल हो या नाकाम—एक नया ट्रेनिंग डेटा बन जाती है। रोबोट अब खुद अपना उस्ताद बन रहा है।

बेशक, अभी कुछ बड़ी रुकावटें हैं। WM को 5 सेकंड का प्लान बनाने में 11 सेकंड लगते हैं। असल दुनिया के भागदौड़ भरे माहौल में यह देरी बहुत ज्यादा है, खासकर उन कामों के लिए जहाँ तुरंत रिस्पॉन्स देना हो।

फिर भी, डेटा की इस सबसे बड़ी चुनौती को सीधे टक्कर देकर, 1X ने उस भविष्य का दरवाजा खोल दिया है जहाँ रोबोट हमारे बोरिंग निर्देशों से नहीं, बल्कि हमारे साझा अनुभवों और इंटरनेट पर मौजूद करोड़ों वीडियो से सीखेंगे। वह भविष्य अब हर गुजरते वीडियो के साथ और करीब आ रहा है।

बीते कल का ‘डेटा का भूखा’ सिस्टम

खयाली पुलाव नहीं, काम की बात

ह्युमनोइड होने का असली फायदा

थ्योरी से हकीकत तक (चुनौतियों के साथ)

खुद को सिखाने वाला ‘फ्लाईव्हील’

रोबोट का हैरतअंगेज कारनामा: OmniRetarget से लगाई सटीक वॉल फ्लिप

बाइक स्टंट में AI रोबोट्स का जलवा, इंसानों को दी मात!

VR-कंट्रोल तोपें: क्या शुरू हो गया है असली 'मेका' वॉरफेयर का दौर?

CARA: गियर्स नहीं, अब रस्सियों के दम पर दौड़ेंगे रोबोट डॉग्स

AGIBOT का 'Nezha' ह्यूमनॉइड: पैरों और पहियों का बेजोड़ संगम!

बड़ी खबर: NVIDIA की एलीट ह्यूमनॉइड रोबोटिक्स टीम, Jim Fan करेंगे लीड

Boring Company ने हासिल की स्वायत्त टनलिंग में ऐतिहासिक कामयाबी

Neura MiPa: प्री-ऑर्डर के लिए तैयार दुनिया का पहला घरेलू रोबोट

UGOKU Pad: अब स्मार्टफोन से कंट्रोल होगा जायरोस्कोपिक डिवाइस Gen2

Loki Robotics का नया सफाई रोबोट: ऑफिस के उबाऊ कामों से मिलेगी छुट्टी!

EngineAI का PM01 ह्यूमनॉइड रोबोट लॉन्च, कीमत सिर्फ $13,700

यूरोपीय रोबोटिक्स रणनीति: खुलापन हो, पर नादानी नहीं

अमेरिकी समाज: AI और रोबोटिक्स को लेकर एक साझा चिंता?