Figure का Helix 02: कोडिंग छोड़ अब खुद बर्तन धोएगा रोबोट

सालों तक, ह्यूमनॉइड रोबोट्स टेक जगत के उन ‘अनाड़ी टीनेजर्स’ की तरह रहे हैं जो कोरियोग्राफ किए गए डांस और बैकफ्लिप्स में तो माहिर थे, लेकिन घर का कोई छोटा सा काम सौंपते ही उनके हाथ-पांव फूल जाते थे। रोबोटिक्स इंडस्ट्री लंबे समय से “loco-manipulation” की पहेली में उलझी हुई थी—यानी एक ऐसी जटिल चुनौती जिसमें रोबोट को एक साथ चलना भी है और हाथों का इस्तेमाल भी करना है, वो भी बिना गिरे या अपने महंगे पुर्जों का कबाड़ा किए।

लेकिन अब Figure AI ने Helix 02 के साथ मैदान में एंट्री मारी है। यह नया AI मॉडल सिर्फ चलता ही नहीं, बल्कि नाजुक बर्तनों को संभालते हुए लगातार चार मिनट तक स्वायत्त (autonomous) तरीके से डिशवॉशर खाली करने का कारनामा कर दिखाता है। यह कोई काट-छाँट कर बनाया गया छोटा सा डेमो नहीं है। यह इस बात का सबूत है कि कैसे एक अकेला न्यूरल नेटवर्क, पिक्सल से लेकर टॉर्क तक, पूरे ह्यूमनॉइड शरीर को कंट्रोल कर रहा है और लोकोमोशन (चलने) और मैनिपुलेशन (काम करने) के बीच की खाई को पाट रहा है।

जोड़-तोड़ वाले रोबोट्स के दौर का अंत

पारंपरिक रूप से, किसी ह्यूमनॉइड से काम करवाना कोडिंग के किसी ‘फ्रेंकेंस्टीन मॉन्स्टर’ को संभालने जैसा था। एक कंट्रोलर चलने का काम देखता था, जो बैलेंस बनाने के लिए दूसरे को कमान सौंपता था, और फिर तीसरा कंट्रोलर हाथ बढ़ाने या पकड़ने का काम करता था। नतीजा? एक बेहद धीमी, नाजुक और बनावटी प्रक्रिया। अगर कोई चीज़ अपनी जगह से थोड़ी भी हिल जाए, तो तर्क का यह पूरा महल ताश के पत्तों की तरह ढह जाता था।

Figure के मुताबिक, “सच्ची स्वायत्तता के लिए कुछ बुनियादी रूप से अलग चाहिए: एक ऐसा सिंगल लर्निंग सिस्टम जो एक साथ पूरे शरीर के बारे में सोच सके। एक ऐसा सिस्टम जो लगातार महसूस करे, फैसला ले और एक्शन ले।”

Helix 02 इसी समस्या को जड़ से खत्म करने के लिए बनाया गया है। अलग-अलग सिस्टम्स को आपस में जोड़ने के बजाय, Figure ने एक ‘हाइरार्किकल AI आर्किटेक्चर’ तैयार किया है जो एक एकीकृत इकाई के रूप में सोचता और काम करता है।

एक शरीर के लिए तीन परतों वाला दिमाग

Helix 02 का असली जादू इसके तीन-सिस्टम आर्किटेक्चर में छिपा है, जहां हर सिस्टम अपनी समय-सीमा (timescale) पर काम करता है। इसे किसी कंपनी के मैनेजमेंट की तरह समझें, जहां CEO रणनीति तय करता है और इंटर्न ज़मीनी काम करता है।

  • System 2 (रणनीतिकार): यह हाई-लेवल सोचने वाली परत है। यह दृश्यों और भाषा को समझती है और “डिशवॉशर खाली करो” जैसे कमांड को छोटे-छोटे लक्ष्यों में तोड़ देती है। यह धीरे काम करता है और बड़ी तस्वीर पर ध्यान देता है।
  • System 1 (रणनीति को अंजाम देने वाला): यह वह ‘visuomotor policy’ है जो रोबोट की सभी इंद्रियों—हेड कैमरा, नए पाम कैमरा और उंगलियों के टैक्टाइल सेंसर्स—को उसके जोड़ों (joints) से जोड़ती है। यह System 2 के लक्ष्यों को 200 Hz की रफ़्तार वाले फुल-बॉडी कमांड्स में बदल देता है।
  • System 0 (एथलीट): यह इसकी नींव है, जिसे 1,000 घंटों से अधिक के मानवीय मूवमेंट डेटा पर ट्रेन किया गया है। यह 1 kHz की बिजली जैसी रफ़्तार पर काम करता है, जिससे हर हरकत स्थिर, संतुलित और स्वाभाविक लगती है। अपनी ताकत का प्रदर्शन करते हुए Figure ने बताया कि System 0 ने हाथ से लिखे गए C++ के 1,09,504 लाइनों के कोड की जगह एक अकेले न्यूरल नेटवर्क को दे दी है। उन्होंने मूल रूप से कोड की एक पूरी लाइब्रेरी की छुट्टी कर दी और एक ऐसे AI को काम पर रखा जिसने इंसानों को देख-देख कर सब सीखा है।
Video thumbnail

“पिक्सल-टू-होल-बॉडी” का यह पाइपलाइन रोबोट को डिशवॉशर वाले चार मिनट के टास्क के दौरान 61 अलग-अलग ’loco-manipulation’ एक्शन करने की अनुमति देता है। वह चलते हुए सामान उठाने, उसे रखने और हाथ भरे होने पर अपने कूल्हे (hip) से दराज बंद करने जैसे काम बड़ी सहजता से करता है।

तो, यह असल में क्या कर सकता है?

डिशवॉशर वाला टास्क तो सिर्फ एक झांकी है, लेकिन Figure 03 रोबोट पर नए हार्डवेयर—खासकर पाम कैमरा और टैक्टाइल सेंसर्स—ने इसकी कार्यक्षमता को एक नए स्तर पर पहुँचा दिया है। ये सेंसर्स Helix 02 को वह फीडबैक देते हैं जो पहले केवल विजन-आधारित सिस्टम्स के लिए नामुमकिन था।

इसके टैक्टाइल सेंसर्स मात्र तीन ग्राम जितना छोटा दबाव भी महसूस कर सकते हैं, जो एक पेपरक्लिप को महसूस करने के लिए काफी है। इससे बारीक काम (fine-motor skills) की एक नई दुनिया खुल गई है।

बर्तनों से आगे की कलाकारी

Helix 02 की काबिलियत परखने के लिए उसे कई मुश्किल टास्क दिए गए:

  • बोतल का ढक्कन खोलना: इसके लिए दोनों हाथों के सटीक तालमेल और सही दबाव की जरूरत होती है ताकि बोतल पिचक न जाए।
  • ऑर्गनाइज़र से एक अकेली गोली उठाना: जब सिर के मुख्य कैमरे को कुछ दिखाई नहीं देता, तब यह करीब से देखने के लिए हथेली में लगे कैमरों का इस्तेमाल करता है।
  • सिरिंज से ठीक 5 मिलीलीटर दवा निकालना: एक ऐसा काम जिसमें लगातार और एक समान दबाव बनाने के लिए टैक्टाइल फीडबैक की जरूरत होती है।
  • कबाड़ भरे बॉक्स से धातु के पुर्जों को अलग करना: Figure की अपनी BotQ मैन्युफैक्चरिंग फैसिलिटी का यह असली काम दिखाता है कि यह रोबोट अस्त-व्यस्त और अनिश्चित माहौल में भी काम कर सकता है।

विश्लेषण: उपयोगी ह्यूमनॉइड्स की दिशा में एक बड़ी छलांग

भले ही दूसरी कंपनियों ने रोबोट्स को एथलेटिक करतब दिखाते हुए पेश किया हो, लेकिन Figure का ध्यान ह्यूमनॉइड्स को असल दुनिया में ‘उपयोगी’ बनाने की उस चुनौती पर है जिसमें कोई खास ग्लैमर नहीं है। सिर्फ एक साल के भीतर ओरिजिनल Helix (जो सिर्फ ऊपरी शरीर को कंट्रोल करता था) से Helix 02 की फुल-बॉडी स्वायत्तता तक का सफर इस क्षेत्र में प्रगति की तेज रफ़्तार का गवाह है।

सबसे महत्वपूर्ण बात यह है कि अब हम पुराने ढर्रे के ‘हैंड-कोडेड’ व्यवहार से हटकर एक ऐसे सिस्टम की ओर बढ़ रहे हैं जो खुद सीखता है और ढल जाता है। अपने फाउंडेशन मॉडल को इंसानी मूवमेंट के विशाल डेटासेट पर ट्रेन करके, Figure ने एक ऐसी बुनियादी समझ विकसित की है कि दो पैरों वाले शरीर को कैसे चलना और संभलना चाहिए। इससे हाई-लेवल AI इस पर ध्यान दे पाता है कि क्या करना है, जबकि लो-लेवल सिस्टम यह संभालता है कि उसे कैसे करना है।

यह किसी एक काम को पूरी तरह से करने वाले रोबोट को बनाने के बारे में नहीं है, बल्कि एक ऐसा प्लेटफॉर्म तैयार करने के बारे में है जो कुछ भी करना सीख सके। जैसा कि Figure के CEO ब्रेट एडकॉक ने कहा है, Helix न्यूरल नेटवर्क में होने वाला कोई भी सुधार पूरे रोबोट बेड़े (fleet) में भेजा जा सकता है। फिलहाल रोबोट के एक्चुएटर्स अपनी पूरी रफ़्तार के केवल 20-25% पर चल रहे हैं, जिसका मतलब है कि मौजूदा हार्डवेयर पर ही परफॉरमेंस को कई गुना बढ़ाने की गुंजाइश है।

नतीजे अभी शुरुआती हैं, लेकिन वे एक बुनियादी बदलाव की ओर इशारा कर रहे हैं। पूरे शरीर की स्वायत्तता की समस्या को हल करके, Figure ने एक सच्चे ‘जनरल-पर्पस रोबोट’ की दिशा में एक निर्णायक कदम उठाया है—एक ऐसा रोबोट जो शायद अब घर के कामकाज संभालने के लिए पूरी तरह तैयार है।