वीडियो देखकर रोबोट सीखेंगे बॉक्सिंग: HumanX का नया चमत्कार

HKUST, IDEA Research, और Shanghai AI Laboratory के शोधकर्ताओं ने मिलकर HumanX पेश किया है—एक ऐसा फुल-स्टैक फ्रेमवर्क जो ह्यूमनाइड रोबोट्स को सिर्फ इंसानी वीडियो दिखाकर दुनिया के पेचीदा काम सिखा सकता है। अब रोबोट्स को फुटबॉल ड्रिबल करना हो, बॉक्सिंग करनी हो या भारी सामान उठाना, इसके लिए इंजीनियरों को घंटों बैठकर थका देने वाली ‘टास्क-स्पेसिफिक रिवॉर्ड प्रोग्रामिंग’ करने की जरूरत नहीं पड़ेगी, जो अब तक रोबोटिक्स के विकास में सबसे बड़ी बाधा रही है।

इसका ‘सीक्रेट सॉस’ यानी असली जादू दो हिस्सों वाली एक प्रक्रिया में छिपा है, जो इंसानी हरकतों को रोबोटिक समझ में बखूबी तब्दील कर देती है। सबसे पहले आता है XGen, एक डेटा-जेनरेशन पाइपलाइन जो लोगों के साधारण मोनोकुलर वीडियो का विश्लेषण करती है, उन्हें भौतिक रूप से सटीक (physically plausible) मूवमेंट्स में ढालती है और उनमें विविधता जोड़ती है। इसके बाद XMimic नाम का एक यूनिफाइड इमिटेशन-लर्निंग फ्रेमवर्क इस डेटा का इस्तेमाल करके रोबोट की ‘पॉलिसी’ को ट्रेन करता है, जिससे वह नई स्किल्स सीख सके। इस पूरी पाइपलाइन का सफल परीक्षण Unitree G1 ह्यूमनाइड रोबोट पर किया गया, और सबसे बड़ी उपलब्धि यह रही कि इसमें ‘जीरो-शॉट ट्रांसफर’ (बिना किसी अतिरिक्त ट्रेनिंग के सीधे फिजिकल रोबोट पर सफल तैनाती) देखने को मिली।

रिसर्च पेपर के मुताबिक, यह तरीका पिछले तौर-तरीकों के मुकाबले जनरलाइजेशन (generalization) में आठ गुना ज्यादा सफल रहा है। रोबोट द्वारा दिखाई गई स्किल्स वाकई लाजवाब हैं, जिनमें बास्केटबॉल के ‘जंप शॉट्स’ में चकमा देने से लेकर इंसानों के साथ लगातार फुटबॉल पास करने जैसे डायनेमिक मूवमेंट्स शामिल हैं।

यह इतना महत्वपूर्ण क्यों है?

यह ‘जनरल-पर्पस ह्यूमनाइड्स’ यानी हर काम में माहिर रोबोट्स बनाने की दिशा में एक बहुत बड़ी छलांग है। रोबोटिक्स की दुनिया में सबसे बड़ी अड़चन हमेशा से सॉफ्टवेयर की रही है—खासकर हर एक छोटी स्किल को बारीकी से प्रोग्राम करने की थकाऊ प्रक्रिया। HumanX इस समस्या का एक क्रांतिकारी शॉर्टकट पेश करता है: दुनिया के सबसे बड़े और विविध फिजिकल टास्क डेटासेट—यानी YouTube, TikTok और हर दूसरे वीडियो प्लेटफॉर्म—का इस्तेमाल कर रोबोट्स को ट्रेनिंग देना।

रिवॉर्ड इंजीनियरिंग की जरूरत को खत्म करके, यह फ्रेमवर्क नई रोबोटिक क्षमताओं को विकसित करने के रास्ते में आने वाली बाधाओं को काफी हद तक कम कर देता है। अब वेयरहाउस में बॉक्स उठाने के लिए इंजीनियरों की फौज को कोड लिखने की जरूरत नहीं होगी, बल्कि शायद रोबोट को सिर्फ एक कर्मचारी का वीडियो दिखाना ही काफी होगा। यह रोबोटिक्स की दुनिया में वह ‘पैराडाइम शिफ्ट’ है जो आखिरकार ह्यूमनाइड हार्डवेयर को उस मुकाम तक पहुंचा सकता है जिसका वादा साइंस-फिक्शन फिल्मों में किया जाता रहा है।