आज के दौर के रोबोटिक्स का एक ऐसा ‘गंदा’ सच है जिसे अक्सर पर्दे के पीछे ही रखा जाता है: दरअसल, हमें दिखाए जाने वाले ज़्यादातर प्रभावशाली डेमो महज़ हाई-टेक कठपुतली का खेल (puppet shows) होते हैं। इंसानी ऑपरेटरों की एक पूरी फौज, जो महंगे और बेहद जटिल ‘टेली-ऑपरेशन’ गियर्स से लैस होती है, एक-एक कदम पर रोबोट का हाथ पकड़कर उसे गाइड करती है। यह सब इसलिए किया जाता है ताकि वह डेटा जुटाया जा सके जिससे रोबोट को कुछ काम का सिखाया जा सके। यह प्रक्रिया न केवल धीमी और खर्चीली है, बल्कि सच कहें तो, इसे बड़े पैमाने पर लागू करना नामुमकिन है।
Stanford यूनिवर्सिटी से अपनी पीएचडी बीच में ही छोड़ने वाले Sunday AI के टोनी झाओ (Tony Zhao) और चेंग ची (Cheng Chi) ने जब ‘स्केलिंग’ की इस मृतप्राय स्थिति को देखा, तो उन्होंने इसे पूरी तरह से ‘बायपास’ करने का फैसला किया।
उनका समाधान, जो उनके नए फाउंडेशन मॉडल ACT-1 को ताकत दे रहा है, देखने में बेहद साधारण पर असर में क्रांतिकारी है: अगर आप चाहते हैं कि रोबोट कोई काम सीखे, तो बस उसे खुद करके दिखा दें। 20,000 डॉलर के भारी-भरकम टेली-ऑप गियर के बजाय, Sunday के इंजीनियर मात्र 200 डॉलर के “Skill Capture Glove” (स्किल कैप्चर ग्लव) का इस्तेमाल करते हैं। यह ग्लव खास तौर पर उनके Memo रोबोट के हाथों की ज्यामिति और सेंसर्स के साथ तालमेल बिठाने के लिए डिज़ाइन किया गया है, जो इंसानी हरकतों के सूक्ष्म और स्पर्श-संवेदनशील डेटा को कैद कर लेता है। उनका दावा सीधा और साहसी है: अगर कोई इंसान ग्लव पहनकर वह काम कर सकता है, तो रोबोट भी उसे सीख सकता है—बिना किसी कठपुतली जैसी नचाने वाली मेहनत के।
डेटा की किल्लत और ग्लव का समाधान
Sunday का मानना है कि रोबोटिक्स की राह में हार्डवेयर, कंप्यूटिंग पावर या फंडिंग की बाधा नहीं है, बल्कि सबसे बड़ी अड़चन सिर्फ एक है: डेटा। जहाँ लार्ज लैंग्वेज मॉडल्स (LLMs) पूरे इंटरनेट का डेटा निगल सकते हैं, वहीं रोबोटिक्स के पास वास्तविक दुनिया के इंटरैक्शन का ऐसा कोई विशाल भंडार नहीं है। Tesla जैसी कंपनियाँ डेटा जुटाने के लिए अपनी लाखों कारों का इस्तेमाल कर सकती हैं, लेकिन रोबोटिक्स स्टार्टअप्स के पास यह विलासिता नहीं है। टेली-ऑपरेशन अब तक इंडस्ट्री का जवाब था, लेकिन यह एक ‘ब्रूट-फोर्स’ तरीका है जो पैसा और समय दोनों बर्बाद करता है।

Skill Capture Glove इस समस्या का एक शानदार तोड़ है। डेटा कलेक्शन को विकेंद्रीकृत (decentralize) करके, अब दुनिया में कहीं भी बैठा कोई भी व्यक्ति ट्रेनिंग सेट में अपना योगदान दे सकता है, और इसके लिए उसे फिजिकल रोबोट के पास होने की ज़रूरत भी नहीं है। इसके दो मुख्य फायदे हैं:
- किफ़ायती निवेश: Sunday का दावा है कि यह ग्लव मानक टेली-ऑप सेटअप की तुलना में सौ गुना सस्ता है, जिससे डेटा जुटाने की लागत में भारी कमी आती है।
- डेटा की गुणवत्ता: उन कामों के लिए जहाँ ‘एहसास’ या स्पर्श की ज़रूरत होती है—जैसे मोज़े तह करने के लिए कितना दबाव चाहिए या डिशवॉशर में वाइन ग्लास को कैसे फिट करना है—यह ग्लव वह प्राकृतिक ‘फोर्स फीडबैक’ प्रदान करता है जिसे रिमोट टेली-ऑपरेशन कभी हासिल नहीं कर सकता।
यह दृष्टिकोण Sunday को सैकड़ों असली और अस्त-व्यस्त घरों से डेटा जुटाने की अनुमति देता है, जिससे एक ऐसा डेटासेट तैयार होता है जो रोज़मर्रा की ज़िंदगी की पेचीदगियों को दर्शाता है—जिसमें डिशवॉशर में बैठी बिल्लियाँ और बिखरा हुआ सामान सब शामिल है।
डाइनिंग टेबल से डिशवॉशर तक का सफर
ACT-1 की काबिलियत साबित करने के लिए, Sunday ने वह कर दिखाया जिसे वे “किसी रोबोट द्वारा स्वायत्त रूप से (autonomously) किया गया अब तक का सबसे जटिल काम” कहते हैं: डिनर टेबल साफ़ करना और डिशवॉशर लोड करना। यह महज़ चीज़ों को उठाकर रखने का काम नहीं है। इस टास्क में 21 अलग-अलग चीज़ों (नाजुक पारदर्शी वाइन ग्लास से लेकर सिरेमिक प्लेटों और धातु के बर्तनों तक) के साथ 33 अनोखे और कुल 68 पेचीदा तालमेल शामिल हैं।
इस लंबी प्रक्रिया के दौरान, Memo रोबोट 130 फीट से ज़्यादा की दूरी तय करता है, खाने का कचरा फेंकता है, और यहाँ तक कि डिशवॉशर भी चलाता है। यह सूक्ष्म हेरफेर (manipulation) और कमरे के स्तर पर नेविगेशन की एक ऐसी जुगलबंदी है जिसे एक एकल एंड-टू-एंड मॉडल द्वारा नियंत्रित किया जाता है। सह-संस्थापक टोनी झाओ स्वीकार करते हैं कि विकास के दौरान उन्होंने ढेरों गिलास तोड़े, लेकिन 20 से ज़्यादा लाइव डेमो के दौरान एक भी गिलास नहीं टूटा, जो मॉडल की सीखी हुई संवेदनशीलता का प्रमाण है।
अनजान दुनिया में ‘ज़ीरो-शॉट’ जनरल़ाइजेशन
एक रोबोट जो सिर्फ अपनी लैब में काम करता है, वह महज़ एक ‘साइंस प्रोजेक्ट’ है। ACT-1 की अनुकूलन क्षमता परखने के लिए, टीम ने Memo को छह अनजान Airbnbs में तैनात किया। लक्ष्य था: बिना किसी विशेष ट्रेनिंग के टेबल साफ़ करना और डिशवॉशर लोड करना।

ट्रेनिंग के दौरान मॉडल को 3D मैप्स के आधार पर ढालकर, ACT-1 विशिष्ट जगहों को रटने के बजाय नए लेआउट को समझना सीख जाता है। जब इसे किसी नए घर में छोड़ा जाता है, तो यह दिए गए मैप का उपयोग करके महत्वपूर्ण स्थानों तक पहुँचता है। किसी भी ऐसे रोबोट के लिए यह क्षमता बेहद ज़रूरी है जिसे असली घरों की उथल-पुथल के बीच काम करना है। आज की तारीख में, ACT-1 पहला ऐसा फाउंडेशन मॉडल है जो मैप-आधारित नेविगेशन के साथ इतने लंबे समय तक चलने वाले जटिल कार्यों को जोड़ता है।
बारीकियों और सटीकता की नई सीमाएं
डिशवॉशर के मैराथन टास्क के अलावा, Sunday ACT-1 की सूक्ष्म पकड़ को दो और चुनौतीपूर्ण कामों के ज़रिए दिखा रहा है: मोज़े तह करना और एस्प्रेसो कॉफी बनाना। जहाँ अन्य रोबोटों ने बड़ी और अनुमानित चीज़ों को तह किया है, वहीं मोज़े अपने लचीलेपन और अनिश्चित आकार के कारण एक दुःस्वप्न की तरह होते हैं। ACT-1 सफलतापूर्वक मलबे के ढेर से जोड़ों की पहचान करता है, अपनी उंगलियों की हरकत से उन्हें मोड़ता है और टोकरी में रख देता है।
वहीं, एस्प्रेसो मशीन चलाना मिलीमीटर वाली सटीकता और ताकत के मेल का प्रदर्शन है। रोबोट हवा में ही ‘टैम्प’ (tamp) करता है, पोर्टाफिल्टर को लगाता है, और बटन दबाने से पहले उसे लॉक करने के लिए ज़रूरी टॉर्क (torque) पैदा करता है। ये महज़ दिखावटी डेमो नहीं हैं; ये उस उच्च-गुणवत्ता वाले डेटा का सबूत हैं जो Skill Capture Glove प्रदान कर सकता है।
Sunday का यह नजरिया एक बड़ा दांव है। डेटा कलेक्शन के एक नए तरीके पर सब कुछ दांव पर लगाकर, उन्होंने इंडस्ट्री की सबसे बड़ी बाधा को पार कर लिया है और एक ऐसा मॉडल तैयार किया है जिसकी क्षमताएं हैरान कर देने वाली हैं। पहियों वाला Memo रोबोट शायद किसी दो पैरों वाले ह्यूमनॉइड जैसा ‘साइ-फाई’ (sci-fi) न दिखे, लेकिन इसकी व्यावहारिक बुद्धिमत्ता पर कोई सवाल नहीं उठाया जा सकता। Sunday ने शांति से एक खुली चुनौती दे दी है, जो यह बताती है कि रोबोटिक्स का भविष्य शायद कठपुतली नचाने वालों से नहीं, बल्कि रोबोट को बस यह दिखाने से बनेगा कि काम कैसे किया जाता है।













