रोबोट को ट्रेनिंग देना? सच कहें तो यह किसी कोल्हू के बैल की तरह काम करने जैसा है—लगातार वही मैनुअल रीसेट और हर पल की निगरानी। रोबोट के हर एक सफल कदम के पीछे अक्सर एक ऐसा इंसान होता है, जिसने उसकी दर्जनों नाकामियों के बाद थक-हारकर सीन को बार-बार रीसेट किया होगा। लेकिन RoboClaw नाम का एक नया फ्रेमवर्क इस सिरदर्द को खत्म करने के इरादे से मैदान में उतरा है। इसका मंत्र सीधा और सटीक है: रोबोट को वह हुनर सिखाना जिसकी उसे सबसे ज्यादा जरूरत थी—अपना रायता खुद समेटना।
AgiBot, National University of Singapore, और Shanghai Jiao Tong University के रिसर्चर्स द्वारा विकसित RoboClaw एक बेहद सरल लेकिन असरदार कॉन्सेप्ट पेश करता है, जिसे Entangled Action Pairs (EAP) कहा गया है। इसका मूल विचार यह है कि रोबोट जो भी “फॉरवर्ड” स्किल सीखता है—जैसे लिपस्टिक को होल्डर में रखना—उसके साथ ही वह उसकी उलटी यानी “अनडू” (undo) स्किल भी सीखता है—जैसे लिपस्टिक को वापस बाहर निकालना। ये दोनों व्यवहार मिलकर एक ‘सेल्फ-रीसेटिंग लूप’ बना देते हैं। नतीजा? रोबोट खुद टास्क की प्रैक्टिस करता है, खुद ही माहौल को पहले जैसा करता है और फिर से शुरू हो जाता है। इस पूरी प्रक्रिया में उसे किसी इंसानी ‘बेबीसिटर’ की जरूरत नहीं पड़ती।
इसके नतीजे वाकई चौंकाने वाले हैं। रिसर्चर्स के मुताबिक, ट्रेनिंग के दौरान इंसानी दखल (human intervention) में 8 गुना की कमी देखी गई है। यही नहीं, प्रति डेटासेट लगने वाले कुल इंसानी समय में 2.16 गुना की बचत हुई है और जटिल, मल्टी-स्टेप टास्क में सफलता की दर बेसलाइन मॉडल्स के मुकाबले 25% ज्यादा रही है। इस सिस्टम का टेस्ट एक ‘वैनिटी टेबल’ को व्यवस्थित करने वाले टास्क पर किया गया, जहां रोबोट ने खुद सामान संभालना और सही जगह रखना सीखा और अपनी गलतियों को खुद ही सुधारता रहा।
यह इतना महत्वपूर्ण क्यों है?
असली कमाल सिर्फ इस सेल्फ-रीसेटिंग लूप में नहीं है। असली बात यह है कि जो ‘एजेंट’ रोबोट को ट्रेन कर रहा है, वही उसे असल दुनिया में तैनात (deploy) भी करता है। ज्यादातर रोबोटिक सिस्टम में डेटा कलेक्शन, मॉडल ट्रेनिंग और रियल-वर्ल्ड एग्जीक्यूशन के लिए अलग-अलग और कटे हुए पाइपलाइन होते हैं। RoboClaw इन तीनों को एक ही Vision-Language-Model (VLM) आधारित कंट्रोलर के नीचे ले आता है।
इसका मतलब यह है कि जब रोबोट असल दुनिया में किसी काम में फेल होता है, तो वह केवल एक एरर नहीं रह जाता जिसे इंसान ठीक करे; बल्कि वह ट्रेनिंग डेटा का एक नया हिस्सा बन जाता है जो सीधे सिस्टम में वापस फीड होता है। रोबोट मैदान में अपनी गलतियों से खुद सीखता है, जिससे एक ऐसा ‘क्लोज्ड-लूप सिस्टम’ बनता है जो वक्त के साथ लगातार बेहतर होता जाता है। यह रोबोटिक्स को रटी-रटाई और कमजोर ऑटोमेशन से हटाकर एक ऐसी ‘एजेंटिक सिस्टम’ की ओर ले जाता है जो खुद को ढालने और सीखने में सक्षम है।
हाइपरलिंक: arXiv पर पूरा रिसर्च पेपर पढ़ें













