DeepMind का विज़न: हर रोबोट के लिए एक ही AI

सालों से रोबोटिक्स की दुनिया एक बहुत ही बुनियादी, लेकिन सिरदर्द पैदा करने वाली समस्या से जूझ रही थी: पहले एक रोबोट बनाओ, फिर उसके लिए एक खास ‘दिमाग’ तैयार करो। अगर हाथ बदला, पहिए बदले या काम बदला, तो समझो फिर से जीरो से शुरुआत करनी होगी। इस ‘एक रोबोट-एक दिमाग’ वाले पुराने ढर्रे ने हमें दुनिया भर के ‘स्पेशलिस्ट’ तो दे दिए, लेकिन कोई ‘ऑल-राउंडर’ नहीं मिला। यही वजह है कि आपका रूमबा (Roomba) सैंडविच नहीं बना सकता और फैक्ट्री में काम करने वाला रोबोटिक हाथ कुत्ते को टहलाने नहीं जा सकता। लेकिन क्या हो अगर एक ही AI इन सबको चलाना सीख ले?

Google DeepMind में यही वो साहसी लक्ष्य है जिस पर काम चल रहा है। वहां की रोबोटिक्स टीम की हेड, Carolina Parada, एक ऐसी खामोश क्रांति की कमान संभाल रही हैं जो रोबोटिक्स की पूरी परिभाषा बदल सकती है। The Humanoid Hub के साथ हाल ही में हुए एक विस्तृत इंटरव्यू में, Parada ने एक ऐसे भविष्य का खाका पेश किया जहां रोबोट्स को अलग-अलग प्रोग्राम करने की जरूरत नहीं होगी, बल्कि उनके पास एक ‘यूनिवर्सल’ और लचीली बुद्धिमत्ता (intelligence) होगी। उनका कहना है कि उनकी टीम का “नॉर्थ स्टार” यानी परम लक्ष्य “भौतिक दुनिया में AGI (Artificial General Intelligence) को मुमकिन बनाना” है। 2022 में जब पूरी दुनिया ChatGPT की कविताओं पर फिदा थी, तब Parada की टीम उतनी हैरान नहीं थी क्योंकि वे पहले से ही इंटरनल लार्ज लैंग्वेज मॉडल्स (LLMs) पर काम कर रहे थे। उनके लिए असली सबक यह था कि जब रिसर्च को आम जनता के हाथ में दिया जाता है, तो उसकी वैल्यू कितनी बढ़ जाती है।

रोबोट के शरीर में Gemini का दिमाग

इस महत्वाकांक्षा के पीछे असली ताकत है Gemini Robotics 1.5। यह DeepMind का एम्बॉडीड AI (Embodied AI) के लिए बनाया गया सबसे लेटेस्ट ‘फाउंडेशनल मॉडल’ है। यह सिर्फ किसी रोबोटिक ढांचे में फिट किया गया कोई साधारण चैटबॉट नहीं है। यह एक असली विजन-लैंग्वेज-एक्शन (VLA) मॉडल है, जिसे शुरुआत से ही इस तरह डिजाइन किया गया है कि वह इस उथल-पुथल भरी और अनिश्चित भौतिक दुनिया को देख सके, समझ सके और उसमें काम कर सके। जैसा कि Google ने बताया है, “Gemini Robotics भौतिक स्थानों के बारे में तर्क करने की क्षमता जोड़ता है - जिससे रोबोट असल दुनिया में एक्शन ले पाते हैं।”

Video thumbnail

1.5 अपडेट मुख्य रूप से तीन चीजों पर केंद्रित है: सामान्यीकरण (generalization), इंटरएक्टिविटी और निपुणता (dexterity)। इससे भी महत्वपूर्ण बात यह है कि यह “फिजिकल एजेंट्स” (physical agents) की अवधारणा पेश करता है। यह सिस्टम दो हिस्सों वाले दिमाग का इस्तेमाल करता है:

  • Gemini Robotics-ER 1.5: यह “एम्बॉडीड रीजनिंग” (Embodied Reasoning) मॉडल एक रणनीतिकार की तरह काम करता है। अगर आप इसे कमांड दें कि “यहाँ फैला हुआ कचरा साफ करो,” तो यह उसे छोटे-छोटे लॉजिकल स्टेप्स में तोड़ देता है। जरूरत पड़ने पर यह Google Search का इस्तेमाल करके वो जानकारी भी जुटा सकता है जो इसके पास नहीं है।
  • Gemini Robotics 1.5 (VLA): यह रोबोट का ‘मोटर कॉर्टेक्स’ है। यह रीजनिंग मॉडल से मिले स्टेप-बाय-स्टेप प्लान को लेता है और उसे सटीक शारीरिक हरकतों में बदल देता है, चाहे वह रोबोट किसी भी आकार का क्यों न हो।

यह आर्किटेक्चर रोबोट को “सोच-समझकर कदम उठाने” की काबिलियत देता है। वह किसी समस्या को सुलझाने के लिए अपने अंदर ही एक ‘मोनोलॉग’ (संवाद) तैयार करता है, जिससे उसके फैसले ज्यादा पारदर्शी और वाकई में इंटेलिजेंट लगते हैं।

असली कामयाबी: क्रॉस-एम्बॉडिमेंट ट्रांसफर

हालांकि, सबसे बड़ी छलांग वो है जिसे Parada “क्रॉस-एम्बॉडिमेंट ट्रांसफर” (cross-embodiment transfer) कहती हैं। इसका सीधा सा मतलब यह है कि एक रोबोट द्वारा सीखी गई कोई भी स्किल, बिना किसी दोबारा ट्रेनिंग के, किसी बिल्कुल अलग मशीन में ट्रांसफर की जा सकती है। Parada समझाती हैं, “यह वाकई में वही ‘वेट्स’ (weights) का सेट है जो उन सब में काम करता है।” उन्होंने इसका परीक्षण ALOHA (दो हाथों वाला रोबोट), Franka रोबोट और Apptronik के Apollo ह्यूमनॉइड जैसे अलग-अलग प्लेटफॉर्म्स पर किया है।

यह इंडस्ट्री के पुराने तौर-तरीकों से बिल्कुल अलग है। सिद्धांत रूप में, एक पहियों वाले रोबोट ने जो काम सीखा है, वह एक ह्यूमनॉइड रोबोट को उसी काम को बेहतर तरीके से करने में मदद कर सकता है। “हम वाकई एक ऐसे भविष्य में विश्वास करते हैं जहां बहुत सारे अलग-अलग प्रकार के रोबोट्स का एक समृद्ध इकोसिस्टम होगा,” Parada कहती हैं। “अगर हम कह रहे हैं कि हम भौतिक दुनिया में AI को सुलझाना चाहते हैं, तो इसका मतलब है कि उसे इतना स्मार्ट होना चाहिए कि वह किसी भी रोबोट के शरीर में समा सके।”

यह कॉन्सेप्ट DeepMind के पिछले प्रोजेक्ट्स जैसे RT-X पर आधारित है, जिसे 33 अलग-अलग एकेडमिक लैब्स के 22 तरह के रोबोट्स से मिले डेटा पर ट्रेन किया गया था। उस प्रोजेक्ट ने साबित कर दिया था कि अलग-अलग हार्डवेयर पर एक साथ ट्रेनिंग देने से मॉडल में नई खूबियां पैदा होती हैं और वह स्पेस (स्थान) के तालमेल को बेहतर समझ पाता है। Gemini Robotics 1.5 इसी सिद्धांत का एक सुपरचार्ज्ड अवतार है।

बदलती समयसीमा

रोबोटिक्स के जानकारों के लिए, एक ऐसी मशीन का सपना जो सिर्फ इंसान को देखकर काम सीख ले, हमेशा से एक दूर की कौड़ी रही है। Parada स्वीकार करती हैं, “पहले टीम में हर कोई कहता था कि ‘अरे, यह तो मेरे रिटायरमेंट के बाद ही होगा’। लेकिन अब हम इस बारे में चर्चा कर रहे हैं कि आखिर इसमें कितना वक्त लगेगा? पांच साल? या दस साल?”

यह रफ्तार अब महसूस की जा सकती है। हालांकि Parada मानती हैं कि ह्यूमनॉइड (इंसान जैसे रोबोट) एक “महत्वपूर्ण फॉर्म फैक्टर” हैं क्योंकि उन्हें हमारी दुनिया के हिसाब से बनाया गया है, लेकिन वे इस बात से असहमत हैं कि सिर्फ वही मायने रखते हैं। DeepMind का विजन ‘हार्डवेयर-एग्नोस्टिक’ है। उनके लिए बुद्धिमत्ता (intelligence) असली प्रोडक्ट है, न कि वह लोहे का ढांचा जिसमें वह रहती है।

सबसे बड़ी चुनौती क्या है? हमारे घर। Parada का मानना है कि घर रोबोटिक्स के लिए “आखिरी मोर्चों में से एक” होगा, क्योंकि घर बहुत ही अस्त-व्यस्त और अनिश्चित होते हैं। एक फैक्ट्री का फर्श अनुमान के मुताबिक होता है, लेकिन एक परिवार की रसोई बिल्कुल नहीं।

सबको जोड़ने वाला एक दिमाग

DeepMind की रणनीति एक बुनियादी दांव है: रोबोटिक्स का भविष्य बेहतर हार्डवेयर में नहीं, बल्कि एक सार्वभौमिक (universal) और स्केलेबल बुद्धिमत्ता में छिपा है। AI ‘दिमाग’ को रोबोटिक ‘शरीर’ से अलग करके, वे एक ऐसा फाउंडेशन मॉडल बनाना चाहते हैं जो हर रोबोट से एक साथ सीख सके और अपने ज्ञान को मशीनों के वैश्विक बेड़े में साझा कर सके।

यह एक ऐसा नजरिया है जो आखिरकार उस ‘एक रोबोट-एक दिमाग’ वाली बाधा को तोड़ सकता है जिसने दशकों से इस क्षेत्र को जकड़ रखा था। हमें सिर्फ एक स्मार्ट रोबोट नहीं मिल रहा है; हम एक ‘यूनिवर्सल पायलट’ के जन्म के गवाह बन रहे हैं, जो किसी भी ऐसी मशीन को चलाने के लिए तैयार है जिसे हम बना सकते हैं। ऐसा लगता है कि ‘द जेट्सन्स’ वाला रोबोट बटलर अब हकीकत के एक कदम और करीब आ गया है।