जनरल-पर्पस रोबोट बनाने की इस लंबी और अक्सर लड़खड़ाती मैराथन में, पूरी इंडस्ट्री सालों से एक ही बड़ी अड़चन से टकराती रही है: डेटा की कमी। जहाँ एक तरफ लार्ज लैंग्वेज मॉडल्स (LLMs) ने पूरे इंटरनेट को अपना निवाला बना लिया—यानी टेक्स्ट का एक ऐसा बुफे जिसे वे जितना चाहें उतना डकार सकते थे—वहीं रोबोटिक्स की दुनिया अभी भी ‘टेलीऑपरेशन’ (teleoperation) के सहारे रेंग रही है। यह मशीनों को हाथ पकड़कर सिखाने की एक ऐसी धीमी और महंगी प्रक्रिया है, जैसे किसी को चम्मच से खाना खिलाया जा रहा हो। लेकिन अब, Skild AI नाम के एक स्टार्टअप ने इस पुराने ढर्रे को छोड़ने का फैसला किया है। उन्होंने अपने रोबोट्स को चम्मच से खिलाने के बजाय सीधे ‘मेन्यू’ दिखाना शुरू कर दिया है। उनका ताज़ा कारनामा? एक रोबोटिक आर्म, जिसने सिर्फ एक इंसान का वीडियो देखकर अंडे भुर्जी (scrambled eggs) बनाना सीख लिया।
यह सिर्फ कोई छोटा-मोटा ‘पार्टी ट्रिक’ नहीं है। यह सीधे तौर पर उस समस्या पर हमला है जिसे फिजिकल AI की सबसे बड़ी बाधा माना जाता है: ‘डेटा बॉटलनेक’ (data bottleneck)। रोबोट्स को ट्रेनिंग देने का मौजूदा तरीका यह है कि इंसान रिमोट के जरिए मशीनों को ‘कठपुतली’ की तरह नचाते हैं ताकि उनके मोटर-कंट्रोल के लिए सटीक डेटा जुटाया जा सके। लेकिन जैसा कि Skild AI का मानना है, इस रणनीति में दो बड़ी खामियां हैं: पहली यह कि इसमें विविधता की कमी है क्योंकि ज़्यादातर डेटा लैब के बंद कमरों में जुटाया जाता है, और दूसरी यह कि इस तरीके से एक असली ‘फाउंडेशन मॉडल’ बनाने के लिए ज़रूरी डेटा जुटाना गणितीय रूप से असंभव है। आप दुनिया के सारे इंसानों को भी काम पर लगा दें, तो भी रोबोट्स को 24/7 चलाने के बाद भी वह ‘ट्रिलियन डेटा पॉइंट्स’ हासिल नहीं किए जा सकते जिनकी ज़रूरत है।
यूट्यूब-टू-रोबोट पाइपलाइन (The YouTube-to-Robot Pipeline)
डेटा का नया ‘फार्म’ बनाने के बजाय, Skild AI उस खजाने का इस्तेमाल कर रहा है जो पहले से मौजूद है: इंटरनेट। कंपनी का मानना है कि इंसानों ने पहले ही रोबोटिक्स के लिए इंटरनेट के स्तर का एक विशाल डेटासेट तैयार कर दिया है—यूट्यूब ट्यूटोरियल्स, टिकटॉक हैक्स और अनगिनत निर्देश देने वाले वीडियो के रूप में। इसका समाधान हमारी आँखों के सामने ही था: ‘ऑब्जर्वेशनल लर्निंग’ (observational learning)—यानी देखकर सीखना, ठीक वैसे ही जैसे हम इंसान सीखते हैं। हम गिलास में पानी डालना फ्लूइड डायनेमिक्स के फॉर्मूले पढ़कर नहीं सीखते; हम किसी और को ऐसा करते हुए देखते हैं और हमारा दिमाग बाकी का काम खुद कर लेता है।
Skild AI अपने मॉडल्स को यही हुनर सिखा रहा है। इंसानों को काम करते हुए देखकर, AI उनके इरादे और उनके एक्शन के क्रम को समझ लेता है, और एक विजुअल डेमो को रोबोटिक कमांड्स में बदल देता है।

ज़ाहिर है, यह इतना भी आसान नहीं है। किसी रोबोट को गॉर्डन रामसे (Gordon Ramsay) का वीडियो दिखाकर यह उम्मीद करना कि वह कल ही मिशेलिन-स्टार खाना बना देगा, सिर्फ एक कोरी कल्पना है। इसके पीछे सबसे बड़ी तकनीकी चुनौती वह है जिसे इंडस्ट्री में “एम्बॉडीमेंट गैप” (Embodiment Gap) कहा जाता है। एक इंसानी हाथ में 27 ‘डिग्री ऑफ फ्रीडम’ होते हैं, जबकि रोबोट के दो उंगलियों वाले ग्रिपर में ऐसा नहीं होता। एक इंसानी शेफ की लचीली हरकतों को एक मल्टी-एक्सिस रोबोटिक आर्म के सख्त जोड़ों पर मैप करना अनुवाद की एक बहुत बड़ी समस्या है।
ओमनी-बॉडीड लर्निंग और ‘Skild Brain’
यहीं पर Skild AI का असली जादू काम आता है। कंपनी ने एक “ओमनी-बॉडीड” (omni-bodied) फाउंडेशन मॉडल विकसित किया है, जिसे Skild Brain का नाम दिया गया है। यह AI किसी खास हार्डवेयर का गुलाम नहीं है। यह पहियों वाले ह्यूमनॉइड्स से लेकर एक जगह स्थिर रहने वाले रोबोटिक आर्म्स तक, किसी भी मशीन को कंट्रोल कर सकता है। इस मॉडल को इंसानी वीडियो और फिजिक्स-आधारित सिमुलेशन की भारी खुराक दी गई है, जिससे इसे यह समझ आ जाता है कि चीज़ों को पकड़ना और हिलाना कैसे है।
कंपनी ने कहा, “प्रोग्रामिंग के बजाय अनुभव से सीखना ही रोबोटिक्स में आया सबसे बड़ा बदलाव है।” उन्होंने NVIDIA के सिमुलेशन और AI इंफ्रास्ट्रक्चर का ज़िक्र करते हुए बताया कि वे “महज़ कुछ दिनों में हज़ारों सालों का अनुभव” हासिल कर लेते हैं।
इस तकनीक की मदद से रोबोट किसी वीडियो से नया हुनर सीख सकता है और उसे फिनिशिंग टच देने के लिए महज़ एक घंटे से भी कम समय के रोबोट-स्पेसिफिक डेटा की ज़रूरत पड़ती है। इसका नतीजा हमारे सामने है: डिशवॉशर लोड करने से लेकर पौधों को पानी देने और पर्दे खींचने तक, ये रोबोट अलग-अलग माहौल में खुद को ढाल रहे हैं।

रोबोटिक क्रांति के मायने
अगर Skild AI का यह तरीका उतना ही कारगर साबित होता है जितना वे दावा कर रहे हैं, तो इसके नतीजे क्रांतिकारी होंगे। यह रोबोट ट्रेनिंग के पूरे अर्थशास्त्र को बदल देगा। महंगे टेलीऑपरेशन फार्म्स की जगह अब ऐसे मॉडल्स ले लेंगे जो इंटरनेट पर मौजूद इंसानी गतिविधियों की लाइब्रेरी से खुद को अपडेट करते रहेंगे। इससे घरों, रेस्टोरेंट्स और कंस्ट्रक्शन साइट्स जैसे अनस्ट्रक्चर्ड इलाकों में रोबोट्स की तैनाती की रफ्तार कई गुना बढ़ जाएगी—ये वो जगहें हैं जहाँ ऑटोमेशन अब तक नाकाम रहा है।
पूरी इंडस्ट्री की नज़रें इस पर टिकी हैं। ह्यूमनॉइड और जनरल-पर्पस रोबोट बनाने वाली दूसरी कंपनियाँ भी डेटा की इस पहेली को सुलझाने के लिए अलग-अलग दांव खेल रही हैं।
फिलहाल, Skild AI ने एक बेहद दिलचस्प और दिखने में काफी स्वादिष्ट डेमो पेश किया है। जहाँ एक तरफ दुनिया इंटरनेट पर वीडियो सिर्फ मनोरंजन के लिए देख रही है, वहीं Skild खामोशी से उस कंटेंट को हमारे भविष्य के रोबोट सहायकों के लिए एक ‘सिलेबस’ में बदल रहा है। खुद से खाना बनाना सीखने वाले रोबोट शेफ का दौर हमारी सोच से कहीं ज़्यादा करीब हो सकता है।













