CMU की नई तकनीक: अब अपनी गलतियों से खुद सीखेंगे रोबोट 🤖

Carnegie Mellon University और NVIDIA के रिसर्चर्स ने लगता है अब यह मान लिया है कि रोबोट्स को भी किसी इंटर्न की तरह अपनी गलतियों से ही सबक लेना चाहिए। उन्होंने PLD (Probe, Learn, Distill) नाम का एक ऐसा क्रांतिकारी फ्रेमवर्क पेश किया है, जो Vision-Language-Action (VLA) मॉडल्स को हाई-प्रिसिजन टास्क में खुद-ब-खुद सुधार करने की काबिलियत देता है। यह रोबोट्स को इंसानों की नकल उतारने वाले उस पुराने और उबाऊ तरीके से आजादी दिलाता है, जो किसी माइक्रोचिप को हाथ से तराशने जितना ही मुश्किल और थकाऊ काम था।

PLD तकनीक असल में एक तीन-चरणों वाली प्रक्रिया है, जिसे ‘विफलता को ही खूबी’ बनाने के लिए डिजाइन किया गया है। सबसे पहले, रोबोट अपने मौजूदा ज्ञान के आधार पर किसी काम को करने की कोशिश करके अपनी सीमाओं को टटोलता है (Probe)। जब वह अनिवार्य रूप से कोई गलती करता है—जैसे कि सर्व करते समय ड्रिंक गिरा देना—तो वहां एक हल्का-फुल्का “रेस्क्यू पॉलिसी” (rescue policy) काम आता है। यह रेजिडुअल रीइन्फोर्समेंट लर्निंग के जरिए ट्रेन किया गया सिस्टम तुरंत हरकत में आता है और गलती को सुधारता है (Learn)। अंत में, सिस्टम इस सफल सुधार से मिली सीख को मुख्य मॉडल में समाहित कर देता है (Distill)। सीधे शब्दों में कहें तो, रोबोट हर बार फेल होने पर थोड़ा और स्मार्ट हो जाता है, और इसके लिए उसे किसी इंसान का हाथ पकड़कर चलने की जरूरत नहीं पड़ती। इस सिस्टम ने LIBERO बेंचमार्क पर 99% और कुछ रियल-वर्ल्ड टास्क में 100% सफलता दर दर्ज की है।

यह क्यों महत्वपूर्ण है?

यह पूरी तरह से ढलने वाले (adaptable) रोबोट्स बनाने की दिशा में एक बड़ा कदम है। अब रोबोट्स को हर मुमकिन स्थिति के लिए परफेक्ट मूवमेंट्स की लाइब्रेरी रटाने की जरूरत नहीं है; PLD से लैस रोबोट अपने नए और अधूरे अनुभवों से खुद अपना ट्रेनिंग डेटा तैयार कर सकते हैं। सुधार का यह ‘सेल्फ-लूप’ रोबोटिक्स के विकास में लगने वाले समय और लागत को काफी कम कर सकता है। इससे रोबोट्स हमारी बिखरी हुई और बेतरतीब रसोई जैसे अनस्ट्रक्चर्ड वातावरण में काम करने के लिए ज्यादा सक्षम बनेंगे। यह “देखकर सीखने” के बजाय “करके सीखने” और सबसे महत्वपूर्ण बात, “गलती करके सुधरने” की दिशा में एक बड़ा बदलाव है।