सालों से रोबोटिक्स की दुनिया एक ऐसी दास्तान रही है, जहाँ शानदार हार्डवेयर बस एक ‘दिमाग’ के इंतज़ार में बैठा था। हमने मशीनी कुत्तों को बैकफ्लिप लगाते देखा है और फैक्ट्री के रोबोटिक हाथों को जादुई सटीकता के साथ काम करते हुए भी, लेकिन असल में वे बस एक लिखी-लिखाई स्क्रिप्ट को दोहरा रहे थे। उनसे ज़रा भी हटकर कुछ करने को कहिए, और जवाब में आपको सिर्फ एक खाली, बेजान मशीनी सन्नाटा ही मिलता था। लेकिन लगता है कि वह दौर अब बेहद शोर-शराबे के साथ खत्म होने जा रहा है।
यहाँ एंट्री होती है Google DeepMind के नए दौर के रोबोट्स की, जो महज़ पहले से प्रोग्राम किए गए पुतले नहीं बल्कि… समझदार साथी हैं। कैलिफोर्निया स्थित अपनी लैब के हालिया दौरे में, कंपनी ने ऐसी मशीनों की एक फौज दिखाई जो सिर्फ देखती और करती नहीं हैं; वे काम करने से पहले उसे समझती हैं, उसकी योजना बनाती हैं और यहाँ तक कि उसके बारे में सोचती भी हैं। इसका ‘सीक्रेट सॉस’ कोई बेहतर गियर या मोटर नहीं है, बल्कि वही ताकतवर AI है जो Gemini मॉडल्स को चलाता है। नतीजा? ये रोबोट कमाल की फुर्ती के साथ आपका लंच पैक कर सकते हैं और फिर, बड़े ही मज़ेदार अंदाज़ में, बैटमैन बनकर काम करने से साफ़ इनकार भी कर सकते हैं।

इस ताकत के पीछे का दो-परत वाला ‘दिमाग’
Google DeepMind में रोबोटिक्स के डायरेक्टर Keshkaro बताते हैं कि बुनियादी बदलाव रोबोट्स को बड़े विज़न-लैंग्वेज-एक्शन (VLA) मॉडल्स पर तैयार करने से आया है। इन रोबोट्स को किसी एक खास काम के लिए प्रोग्राम करने के बजाय, दुनिया की एक सामान्य समझ दी गई है। वे Gemini जैसे मॉडल्स में मौजूद विशाल ज्ञान का इस्तेमाल चीज़ों, कॉन्सेप्ट्स और निर्देशों को उस तरह समझने के लिए करते हैं, जो अब तक सिर्फ साइंस-फिक्शन फिल्मों में ही मुमकिन लगता था।
Google का आर्किटेक्चर रोबोट को प्रभावी ढंग से दो हिस्सों वाला दिमाग देता है:
- Gemini Robotics-ER (Embodied Reasoning): यह एक ‘रणनीतिकार’ (Strategic Planner) की तरह काम करता है। जब इसे कोई जटिल और लंबा काम दिया जाता है—जैसे “स्थानीय रीसाइक्लिंग नियमों के अनुसार इस टेबल को साफ करो”—तो यह मॉडल एक हाई-लेवल दिमाग की तरह काम करता है। यह कदम-दर-कदम योजना बनाने से पहले ज़रूरी जानकारी जुटाने के लिए Google Search जैसे टूल्स का भी इस्तेमाल कर सकता है।
- Gemini Robotics VLA (Vision-Language-Action): यह ‘एग्जीक्यूटर’ यानी काम को अंजाम देने वाला हिस्सा है। यह रीजनिंग मॉडल से मिले सरल निर्देशों को सटीक मोटर कमांड्स में बदलता है, ताकि शारीरिक रूप से उस काम को पूरा किया जा सके।
काम का यह बँटवारा रोबोट्स को “ब्लॉक उठाओ” जैसे छोटे कामों से आगे ले जाकर उन जटिल लक्ष्यों को हासिल करने में मदद करता है, जिनमें वास्तविक ‘प्रॉब्लम-सॉल्विंग’ की ज़रूरत होती है।
“सोच” ही उसे बेहतर बनाती है
शायद सबसे दिलचस्प सफलता शारीरिक कार्यों में “चेन ऑफ थॉट” (सोच की कड़ियाँ) रीजनिंग का इस्तेमाल है। हमने इसे लैंग्वेज मॉडल्स में देखा है, जहाँ AI से “कदम-दर-कदम सोचने” के लिए कहने पर उसका आउटपुट बेहतर हो जाता है। DeepMind ने अब अपने रोबोट्स को एक “इनर मोनोलॉग” (आंतरिक संवाद) दिया है। हिलने-डुलने से पहले, रोबोट अपनी तर्क प्रक्रिया को सामान्य भाषा में जेनरेट करता है।
वीडियो टूर के दौरान Keshkaro समझाते हैं, “हम रोबोट को उस क्रिया के बारे में सोचने पर मजबूर कर रहे हैं जो वह करने वाला है। सिर्फ अपने विचारों को शब्दों में व्यक्त करने की यह प्रक्रिया ही उसे और भी कुशल और बेहतर बनाती है।”
यह सिर्फ कोई किताबी प्रयोग नहीं है। रोबोट को अपनी योजना बताने के लिए मजबूर करना—“ठीक है, मुझे ब्रेड उठानी है और उसे धीरे से इस छोटे ज़िपलॉक बैग के अंदर रखना है”—उसे उन जटिल कामों को व्यवस्थित करने में मदद करता है जिन्हें हम इंसान बिना सोचे-समझे कर लेते हैं। यह एक अजीब लेकिन प्रभावी खूबी है: रोबोट को शारीरिक कामों में बेहतर बनाने के लिए, पहले उसे खुद से बातें करना सिखाना पड़ता है।
लंच तैयार है… बस थोड़ी देर और
कहते हैं न, ‘हाथ कंगन को आरसी क्या’—इस मामले में प्रमाण था पैक किया हुआ लंच। सबसे शानदार डेमो में से एक में एक Aloha रोबोटिक हाथ को लंचबॉक्स तैयार करने का काम दिया गया। यह एक ऐसा काम है जिसमें “मिलीमीटर-स्तर की सटीकता” की ज़रूरत होती है, खासकर जब आप एक पतले ज़िपलॉक बैग के साथ काम कर रहे हों।
रोबोट को काम करते देखना आज की अत्याधुनिक तकनीक का एक बेहतरीन उदाहरण है। यह जितना प्रभावशाली है, उतना ही मासूमियत से भरा भी। रोबोट बैग को बड़ी सावधानी से चुटकी से खोलता है, सैंडविच को अंदर रखता है, और फिर चॉकलेट बार और अंगूर डालता है। वह थोड़ा लड़खड़ाता है, खुद को सुधारता है, और कोशिश जारी रखता है—यह उन कुछ साल पहले वाले रोबोट्स से कोसों दूर है, जो होस्ट Hannah Fry की यादों के मुताबिक, सिर्फ टूटे हुए लेगो ब्लॉक्स का ढेर ही बना पाते थे। यह फुर्ती किसी सख्त कोड से नहीं, बल्कि इंसानी प्रदर्शन (टेलीऑपरेशन) से सीखी गई है, जहाँ एक ऑपरेटर रोबोट को सही मूवमेंट सिखाने के लिए उसे ‘कंट्रोल’ करता है।
“मैं किसी खास किरदार की तरह काम नहीं कर सकता”
जहाँ एक डेमो ने रोबोट की फुर्ती दिखाई, वहीं दूसरे ने सिस्टम की समझ और भाषा के प्रति उसके मज़ेदार रवैये को उजागर किया। जब रोबोट से कहा गया कि “हरे ब्लॉक को नारंगी ट्रे में रखो, लेकिन वैसे ही जैसे बैटमैन करेगा,” तो रोबोट एक पल के लिए ठिठक गया।
उसका जवाब, जो एक बेजान रोबोटिक आवाज़ में आया, लाजवाब था: “मैं किसी खास किरदार की तरह काम नहीं कर सकता। हालांकि, मैं आपके लिए हरा ब्लॉक नारंगी ट्रे में रख सकता हूँ।”
यह बातचीत इन सिस्टम्स की ताकत और सीमाओं को बखूबी बयाँ करती है। रोबोट ने मुख्य निर्देश को पूरी तरह समझ लिया और फालतू की नाटकीयता को किनारे कर दिया। उसके पास चीज़ों और कामों की विश्वस्तरीय समझ तो है, लेकिन सांस्कृतिक किरदारों की कोई समझ नहीं। वह एक ऑल-राउंडर रोबोट है, कोई ‘मेथड एक्टर’ नहीं।
DeepMind की लैब के अंदर की यह झलक दिखाती है कि रोबोटिक्स के क्षेत्र में आखिरकार उसका “सॉफ्टवेयर मोमेंट” आ गया है। बड़े पैमाने पर AI की तरक्की का फायदा उठाकर, Google ऐसे रोबोट्स के लिए एक प्लेटफॉर्म तैयार कर रहा है जो असली दुनिया में सीख सकते हैं, ढल सकते हैं और तर्क कर सकते हैं। शायद वे सुपरहीरो की नकल उतारने के लिए तैयार न हों, लेकिन वे पहले से ही हमारा लंच पैक कर रहे हैं। और सुबह-सुबह जल्दबाजी में घर से निकलने वाले किसी भी इंसान के लिए, यह किसी सुपरहीरो वाले कारनामे से कम नहीं है।













