RoboClaw के 'Undo' बटन से रोबोट ट्रेनिंग हुई 8 गुना तेज़

21 मार्च 2026

रोबोट को ट्रेनिंग देना? सच कहें तो यह किसी कोल्हू के बैल की तरह काम करने जैसा है—लगातार वही मैनुअल रीसेट और हर पल की निगरानी। रोबोट के हर एक सफल कदम के पीछे अक्सर एक ऐसा इंसान होता है, जिसने उसकी दर्जनों नाकामियों के बाद थक-हारकर सीन को बार-बार रीसेट किया होगा। लेकिन RoboClaw नाम का एक नया फ्रेमवर्क इस सिरदर्द को खत्म करने के इरादे से मैदान में उतरा है। इसका मंत्र सीधा और सटीक है: रोबोट को वह हुनर सिखाना जिसकी उसे सबसे ज्यादा जरूरत थी—अपना रायता खुद समेटना।

AgiBot, National University of Singapore, और Shanghai Jiao Tong University के रिसर्चर्स द्वारा विकसित RoboClaw एक बेहद सरल लेकिन असरदार कॉन्सेप्ट पेश करता है, जिसे Entangled Action Pairs (EAP) कहा गया है। इसका मूल विचार यह है कि रोबोट जो भी “फॉरवर्ड” स्किल सीखता है—जैसे लिपस्टिक को होल्डर में रखना—उसके साथ ही वह उसकी उलटी यानी “अनडू” (undo) स्किल भी सीखता है—जैसे लिपस्टिक को वापस बाहर निकालना। ये दोनों व्यवहार मिलकर एक ‘सेल्फ-रीसेटिंग लूप’ बना देते हैं। नतीजा? रोबोट खुद टास्क की प्रैक्टिस करता है, खुद ही माहौल को पहले जैसा करता है और फिर से शुरू हो जाता है। इस पूरी प्रक्रिया में उसे किसी इंसानी ‘बेबीसिटर’ की जरूरत नहीं पड़ती।

इसके नतीजे वाकई चौंकाने वाले हैं। रिसर्चर्स के मुताबिक, ट्रेनिंग के दौरान इंसानी दखल (human intervention) में 8 गुना की कमी देखी गई है। यही नहीं, प्रति डेटासेट लगने वाले कुल इंसानी समय में 2.16 गुना की बचत हुई है और जटिल, मल्टी-स्टेप टास्क में सफलता की दर बेसलाइन मॉडल्स के मुकाबले 25% ज्यादा रही है। इस सिस्टम का टेस्ट एक ‘वैनिटी टेबल’ को व्यवस्थित करने वाले टास्क पर किया गया, जहां रोबोट ने खुद सामान संभालना और सही जगह रखना सीखा और अपनी गलतियों को खुद ही सुधारता रहा।

यह इतना महत्वपूर्ण क्यों है?

असली कमाल सिर्फ इस सेल्फ-रीसेटिंग लूप में नहीं है। असली बात यह है कि जो ‘एजेंट’ रोबोट को ट्रेन कर रहा है, वही उसे असल दुनिया में तैनात (deploy) भी करता है। ज्यादातर रोबोटिक सिस्टम में डेटा कलेक्शन, मॉडल ट्रेनिंग और रियल-वर्ल्ड एग्जीक्यूशन के लिए अलग-अलग और कटे हुए पाइपलाइन होते हैं। RoboClaw इन तीनों को एक ही Vision-Language-Model (VLM) आधारित कंट्रोलर के नीचे ले आता है।

इसका मतलब यह है कि जब रोबोट असल दुनिया में किसी काम में फेल होता है, तो वह केवल एक एरर नहीं रह जाता जिसे इंसान ठीक करे; बल्कि वह ट्रेनिंग डेटा का एक नया हिस्सा बन जाता है जो सीधे सिस्टम में वापस फीड होता है। रोबोट मैदान में अपनी गलतियों से खुद सीखता है, जिससे एक ऐसा ‘क्लोज्ड-लूप सिस्टम’ बनता है जो वक्त के साथ लगातार बेहतर होता जाता है। यह रोबोटिक्स को रटी-रटाई और कमजोर ऑटोमेशन से हटाकर एक ऐसी ‘एजेंटिक सिस्टम’ की ओर ले जाता है जो खुद को ढालने और सीखने में सक्षम है।

हाइपरलिंक: arXiv पर पूरा रिसर्च पेपर पढ़ें

यह इतना महत्वपूर्ण क्यों है?

रोबोट का हैरतअंगेज कारनामा: OmniRetarget से लगाई सटीक वॉल फ्लिप

बाइक स्टंट में AI रोबोट्स का जलवा, इंसानों को दी मात!

VR-कंट्रोल तोपें: क्या शुरू हो गया है असली 'मेका' वॉरफेयर का दौर?

CARA: गियर्स नहीं, अब रस्सियों के दम पर दौड़ेंगे रोबोट डॉग्स

AGIBOT का 'Nezha' ह्यूमनॉइड: पैरों और पहियों का बेजोड़ संगम!

बड़ी खबर: NVIDIA की एलीट ह्यूमनॉइड रोबोटिक्स टीम, Jim Fan करेंगे लीड

Boring Company ने हासिल की स्वायत्त टनलिंग में ऐतिहासिक कामयाबी

Neura MiPa: प्री-ऑर्डर के लिए तैयार दुनिया का पहला घरेलू रोबोट

UGOKU Pad: अब स्मार्टफोन से कंट्रोल होगा जायरोस्कोपिक डिवाइस Gen2

Loki Robotics का नया सफाई रोबोट: ऑफिस के उबाऊ कामों से मिलेगी छुट्टी!

EngineAI का PM01 ह्यूमनॉइड रोबोट लॉन्च, कीमत सिर्फ $13,700

यूरोपीय रोबोटिक्स रणनीति: खुलापन हो, पर नादानी नहीं

अमेरिकी समाज: AI और रोबोटिक्स को लेकर एक साझा चिंता?