रोबोटिक्स की दुनिया में ‘वर्ल्ड मॉडल्स’ (World Models) अक्सर लंबी सिमुलेशन के दौरान ताश के पत्तों की तरह ढह जाते हैं—उनकी फिजिकल कंसिस्टेंसी किसी भीगे हुए कागज जैसी कमजोर साबित होती है। लेकिन Interactive World Simulator नाम का एक नया प्रोजेक्ट इस पूरी कहानी को बदलने आ गया है। यह मॉडल एक अकेले NVIDIA, Inc. RTX 4090 GPU पर 15 FPS की रफ्तार से 10 मिनट से भी ज्यादा का स्टेबल और इंटरैक्टिव वीडियो जनरेट करने का दावा कर रहा है। जी हां, आपने सही पढ़ा—10 मिनट की जटिल फिजिक्स, वो भी एक साधारण कंज्यूमर-ग्रेड GPU पर मक्खन की तरह चलती हुई।
रिसर्चर Yixuan Wang द्वारा विकसित यह ‘एक्शन-कंडीशन्ड’ वर्ल्ड मॉडल कोई पहले से रेंडर किया हुआ वीडियो नहीं है; यह एक पूरी तरह से इंटरैक्टिव सिमुलेशन है जिसे आप रियल-टाइम में खुद “ड्राइव” कर सकते हैं। सबसे कमाल की बात? आप इसे अभी अपने ब्राउज़र पर आज़मा सकते हैं, इसके लिए आपको किसी भारी-भरकम पाइथन लाइब्रेरी या pip install वाली सिरदर्दी की जरूरत नहीं है। यह मॉडल केबल बिछाने (cable routing) से लेकर चीजों के ढेर को साफ करने जैसे ‘कॉन्टैक्ट-रिच’ कामों को बड़ी बारीकी से अंजाम देता है। खास बात यह है कि यह सब पूरी तरह से पिक्सेल स्पेस (pixel space) में जनरेट होता है। ये किसी असली कैमरे के फुटेज नहीं हैं, बल्कि मॉडल द्वारा खुद तैयार की गई ‘ओपन-लूप प्रेडिक्शन्स’ हैं।
आखिर यह इतना महत्वपूर्ण क्यों है?
यह सिर्फ एक शानदार टेक डेमो नहीं है, बल्कि रोबोटिक्स की दो सबसे बड़ी चुनौतियों का काट है। पहला, यह स्केलेबल डेटा जनरेशन (scalable data generation) का रास्ता खोलता है। ट्रेनिंग डेटा जुटाने के लिए असली दुनिया के महंगे और सुस्त रोबोट्स पर निर्भर रहने के बजाय, डेवलपर्स अब इस सिमुलेटर के भीतर ही भौतिक रूप से सटीक डेटा का पहाड़ खड़ा कर सकते हैं। दूसरा, यह फेथफुल पॉलिसी इवैल्यूएशन (faithful policy evaluation) को मुमकिन बनाता है। यानी, असली हार्डवेयर को छूने से पहले ही शोधकर्ता रोबोट के “दिमाग” को एक सुरक्षित, सुसंगत और बार-बार दोहराई जा सकने वाली वर्चुअल दुनिया में परख सकते हैं। लब्बोलुआब यह है कि यह रोबोट ट्रेनिंग को सस्ता, तेज और सुरक्षित बनाता है—ताकि ट्रेनिंग के दौरान आपका लाखों का रोबोटिक आर्म दीवार में छेद न कर बैठे।













