ईमानदारी से बात करें तो, जब आप Microsoft के बारे में सोचते हैं, तो आपके दिमाग में शायद उन सॉफ्टवेयर्स की तस्वीर आती है जिनसे दुनिया भर के डेस्कटॉप चलते हैं, न कि उन रोबोट्स की जो एक दिन शायद उन्हें खुद असेंबल करेंगे। रोबोटिक्स के मामले में कंपनी का इतिहास थोड़ा… उतार-चढ़ाव भरा रहा है। हम में से कई लोगों की यादों के किसी धूल भरे कोने में आज भी Microsoft Robotics Developer Studio की यादें ताजा होंगी—2006 के दौर की वह कोशिश जिसने रोबोट्स के लिए “Windows” बनाने का सपना देखा था, लेकिन वह कोशिश परवान नहीं चढ़ सकी। वह एक नेक इरादा तो था, लेकिन शायद बाजार उस वक्त उस समस्या का समाधान ढूंढने के लिए तैयार नहीं था।
लेकिन यह 2026 है। दुनिया बदल चुकी है। OpenAI के साथ अपनी गहरी जुगलबंदी के दम पर Microsoft अब सिर्फ एक सॉफ्टवेयर दिग्गज नहीं, बल्कि AI की दुनिया का एक महाबली (behemoth) बन चुका है। और अब यह रोबोटिक्स के मैदान में एक बार फिर, कहीं ज्यादा महत्वाकांक्षी दांव खेलने जा रहा है। इस बार, मामला सिर्फ एक डेवलपर किट देने तक सीमित नहीं है। बात हो रही है एक एकल, यूनिवर्सल ‘दिमाग’ बनाने की—भौतिक दुनिया के लिए एक ऐसा ‘फाउंडेशन मॉडल’ जो फैक्ट्री के किसी मल्टी-जॉइंटेड हाथ से लेकर इंसानों जैसे दिखने वाले ‘ह्यूमनॉइड’ असिस्टेंट तक, सबको पावर दे सके। मकसद है डिजिटल इंटेलिजेंस और फिजिकल एक्शन के बीच की उस खाई को पाटना, जिसे टेक की भाषा में ‘एम्बॉडेड AI’ (embodied AI) कहा जाता है।
लैंग्वेज मॉडल से ‘फिजिकल AI’ तक का सफर
सालों से रोबोट्स एक तयशुदा और कंट्रोल्ड माहौल में तो कमाल करते आए हैं। एक ऑटोमोबाइल असेंबली लाइन किसी रोबोट के लिए स्वर्ग जैसी होती है: हर पुर्जा अपनी तय जगह पर होता है, हर काम बार-बार दोहराया जाता है, और गलती की गुंजाइश न के बराबर होती है। लेकिन जैसे ही आप उस रोबोट को उसके पिंजरे से बाहर निकालकर इंसानों की इस बेतरतीब और अनिश्चित दुनिया में लाते हैं, वह एक महंगा ‘पेपरवेट’ बनकर रह जाता है। Microsoft इसी मुश्किल को हल करने की कोशिश कर रहा है।
कंपनी का बड़ा आइडिया है “फिजिकल AI” (Physical AI) तैयार करना, जो उन्हीं सिद्धांतों पर काम करे जिन्होंने GPT-4 जैसे मॉडल्स को इतना ताकतवर बनाया है। इस पहल का नया सितारा है Rho-alpha, जो माइक्रोसॉफ्ट की Phi सीरीज के विजन-लैंग्वेज मॉडल्स पर आधारित पहला रोबोटिक्स मॉडल है। जैसा कि माइक्रोसॉफ्ट रिसर्च की वीपी एशले लोरेंस (Ashley Llorens) कहती हैं, यह उन सिस्टम्स को तैयार करने के बारे में है जो “इंसानों के साथ ऐसे माहौल में स्वायत्तता (autonomy) के साथ काम कर सकें, देख सकें और तर्क कर सकें, जो बहुत कम व्यवस्थित हैं।”
सीधे शब्दों में कहें तो, वे एक ऐसा मॉडल बनाना चाहते हैं जो सिर्फ “नीला डिब्बा उठाओ” जैसे कमांड को ही न समझे, बल्कि उसे उठाने के पीछे की फिजिक्स को भी समझे—जैसे कि उसे इतना जोर से नहीं दबाना है कि वह टूट जाए, और अगर डिब्बा अपनी जगह से थोड़ा खिसक गया है, तो खुद को उसके हिसाब से ढाल लेना है। यह रटी-रटाई प्रोग्रामिंग से हटकर एक लचीली और समझदार बुद्धिमत्ता की ओर बड़ा कदम है।
VLA+ का फायदा: स्पर्श का जादू
Rho-alpha की असली ताकत इसकी आर्किटेक्चर है, जिसे माइक्रोसॉफ्ट “विजन-लैंग्वेज-एक्शन प्लस” (VLA+) मॉडल कह रहा है। Google DeepMind जैसे प्रतिस्पर्धियों के पुराने मॉडल्स के उलट, जो मुख्य रूप से देखने (vision) और भाषा (language) पर निर्भर करते थे, Rho-alpha इसमें एक बेहद जरूरी चीज जोड़ता है: स्पर्श (touch)। टैक्टाइल सेंसिंग (tactile sensing) को शामिल करके, यह मॉडल समझ सकता है कि किसी चीज को छूने पर कैसा महसूस होता है। यह उन बारीकी वाले कामों के लिए गेम-चेंजर है—जैसे प्लग लगाना या किसी डायल को घुमाना—जो सिर्फ देखकर करना लगभग नामुमकिन है।
बेशक, ऐसा मॉडल बनाने में रोबोटिक्स की सबसे बड़ी बाधा सामने आती है: डेटा की भारी कमी। आप इंटरनेट से स्क्रैप करके रोबोट द्वारा पेचकस चलाने के खरबों उदाहरण नहीं पा सकते। इस समस्या से निपटने के लिए माइक्रोसॉफ्ट ‘सिमुलेशन’ का सहारा ले रहा है।
“तर्क करने और काम करने वाले फाउंडेशन मॉडल्स को ट्रेन करने के लिए वास्तविक दुनिया के विविध डेटा की कमी को दूर करना जरूरी है,” NVIDIA में रोबोटिक्स और एज AI के वाइस प्रेसिडेंट दीपू तल्ला (Deepu Talla) कहते हैं। “Azure पर NVIDIA Isaac Sim का उपयोग करके भौतिक रूप से सटीक सिंथेटिक डेटासेट तैयार करके, माइक्रोसॉफ्ट रिसर्च Rho-alpha जैसे बहुमुखी मॉडल्स के विकास को तेज कर रहा है।”
सिमुलेशन में तैयार किए गए सिंथेटिक डेटा और वास्तविक दुनिया के फिजिकल डेमो का यह मेल ही इन मॉडल्स को बड़े पैमाने पर ट्रेन करने की कुंजी है। जब रोबोट गलती करता है, तो एक इंसान 3D माउस के जरिए उसे सही कर सकता है, और सिस्टम रीयल-टाइम में उस फीडबैक से सीखता है।
एम्बॉडेड इंटेलिजेंस के लिए एक ‘ऑपरेटिंग सिस्टम’
अगर माइक्रोसॉफ्ट इसमें कामयाब हो जाता है, तो इसके नतीजे क्रांतिकारी होंगे। एक जनरल-पर्पस रोबोटिक्स मॉडल हार्डवेयर के लिए क्लाउड-आधारित ऑपरेटिंग सिस्टम की तरह काम कर सकता है। हर रोबोटिक्स कंपनी को अपना जटिल AI स्टैक शुरू से बनाने की जरूरत नहीं होगी; वे माइक्रोसॉफ्ट से एक सक्षम फाउंडेशन मॉडल का लाइसेंस ले सकते हैं और अपना पूरा ध्यान बेहतर हार्डवेयर बनाने पर लगा सकते हैं। इससे इस क्षेत्र में आने वाली बाधाएं कम होंगी और नए तरह के रोबोटिक फॉर्म्स और एप्लिकेशन्स की बाढ़ आ सकती है।
यह माइक्रोसॉफ्ट को सीधे उन टेक दिग्गजों के सामने ला खड़ा करता है जिनके पास यही विजन है। NVIDIA, अपने प्रोजेक्ट GR00T के साथ, AI हार्डवेयर में अपने दबदबे और Omniverse सिमुलेशन प्लेटफॉर्म का फायदा उठाकर एक ऐसा ही फाउंडेशन मॉडल बना रहा है। Tesla अपने ‘ऑप्टिमस’ (Optimus) के साथ वर्टिकली इंटीग्रेटेड अप्रोच अपना रहा है, उसे भरोसा है कि उसकी कारों से मिलने वाला रीयल-वर्ल्ड ड्राइविंग डेटा उसे फिजिकल वर्ल्ड को समझने में बढ़त दिलाएगा। और Google तो सालों से इस क्षेत्र में रिसर्च का पावरहाउस रहा ही है।
माइक्रोसॉफ्ट की रणनीति एक ‘प्लेटफॉर्म प्ले’ लगती है। Rho-alpha को अर्ली एक्सेस प्रोग्राम और बाद में Microsoft Foundry के जरिए उपलब्ध कराकर, वह पार्टनर्स को अपनी नींव पर निर्माण करने के लिए आमंत्रित कर रहा है। Azure क्लाउड इंफ्रास्ट्रक्चर के विशाल पैमाने के साथ यह सहयोगात्मक नजरिया ही माइक्रोसॉफ्ट की सबसे बड़ी ताकत है।
एक जनरल-पर्पस रोबोट का सपना अभी भी हकीकत से काफी दूर है। वास्तविक दुनिया की फिजिक्स, सुरक्षा और लागत से जुड़ी चुनौतियां हिमालय जैसी ऊंची हैं। लेकिन पहली बार, सॉफ्टवेयर अब मुमकिन लगने लगा है। “फिजिकल AI” में माइक्रोसॉफ्ट का यह आक्रामक कदम सिर्फ एक रिसर्च प्रोजेक्ट नहीं है; यह एक साफ संकेत है कि अगली पीढ़ी की मशीनों को दिमाग देने की रेस अब पूरी तरह शुरू हो चुकी है। और इस बार, माइक्रोसॉफ्ट इस खेल का एक बहुत ही गंभीर खिलाड़ी है।













