Ant Group का नया AI वीडियो को रियल-टाइम 3D दुनिया …

अगर आपको लगता है कि आपके स्मार्टफोन का कैमरा सिर्फ धुंधली कॉन्सर्ट फोटोज़ या सेल्फी लेने के लिए है, तो अपनी सोच बदल लीजिए। वैज्ञानिकों ने इसे एक रियल-टाइम 3D स्कैनर में बदल दिया है। Ant Group की एम्बेडेड AI (embodied AI) विंग, Robbyant ने हाल ही में LingBot-Map को ओपन-सोर्स किया है। यह एक नया 3D फाउंडेशन मॉडल है जो सिर्फ एक स्ट्रीमिंग वीडियो के जरिए बड़े और विस्तृत इलाकों का 3D मैप तैयार कर सकता है। सबसे चौंकाने वाली बात? यह 20 फ्रेम्स प्रति सेकंड (FPS) की रफ्तार से काम करता है—एक ऐसी स्पीड जिसके सामने पुराने तरीके कछुए की चाल लगने लगते हैं।

इसकी असली ताकत है इसका अनोखा आर्किटेक्चर, जिसे Geometric Context Transformer (GCT) कहा जा रहा है। यह सिर्फ विजन की समस्या पर थोपा गया कोई साधारण ट्रांसफार्मर नहीं है। GCT को खास तौर पर मोनोकुलर (सिंगल-कैमरा) SLAM सिस्टम की सबसे बड़ी कमजोरी—‘ड्रिफ्ट’ (drift)—को दूर करने के लिए बनाया गया है। इसमें तीन पैरेलल अटेंशन मैकेनिज्म का इस्तेमाल किया गया है: स्टेबल कोऑर्डिनेट्स के लिए ‘एंकर कॉन्टेक्स्ट’, बारीकियों के लिए ‘लोकल पोज़-रेफरेंस विंडो’, और लंबी दूरी की गलतियों को सुधारने के लिए ‘ट्रेजेक्टरी मेमोरी’। इसकी बदौलत LingBot-Map 10,000 से ज्यादा फ्रेम्स वाले वीडियो को भी बिना किसी सटीक कमी के प्रोसेस कर सकता है। यह प्रोजेक्ट अब GitHub पर उपलब्ध है। हाइपरलिंक: Robbyant/lingbot-map

LingBot-Map के Geometric Context Transformer आर्किटेक्चर को दर्शाता एक डायग्राम।

इसके परफॉरमेंस के दावे वाकई हैरान करने वाले हैं। ऑक्सफोर्ड स्पायर्स (Oxford Spires) जैसे चुनौतीपूर्ण डेटासेट पर, LingBot-Map ने एब्सोल्यूट ट्रेजेक्टरी एरर (Absolute Trajectory Error) को महज 6.42 मीटर तक सीमित रखा, जो पिछले बेस्ट स्ट्रीमिंग मेथड से लगभग 2.8 गुना बेहतर है। यह उन ऑफलाइन तरीकों को भी मात दे देता है जिनके पास फुर्सत में डेटा प्रोसेस करने की सुविधा होती है। ETH3D बेंचमार्क पर इसने 98.98 का F1 स्कोर हासिल कर अपने प्रतिद्वंद्वियों को मीलों पीछे छोड़ दिया। जो लोग इसकी तकनीकी गहराइयों में डूबना चाहते हैं, वे arXiv पर पूरा पेपर पढ़ सकते हैं। हाइपरलिंक: Read the paper on arXiv

यह क्यों मायने रखता है?

LingBot-Map ‘स्पेशियल इंटेलिजेंस’ (spatial intelligence) को आम लोगों तक पहुँचाने की दिशा में एक बड़ा कदम है। अब 3D समझ के लिए महंगे LiDAR या भारी-भरकम मल्टी-कैमरा सेटअप की जरूरत नहीं रह जाएगी। यह रोबोटिक्स, ऑटोनॉमस व्हीकल और ऑगमेंटेड रियलिटी (AR) के लिए कम लागत वाले और हाई-परफॉरमेंस विजन के दरवाजे खोलता है। यह सिर्फ खूबसूरत ‘पॉइंट क्लाउड्स’ बनाने का मामला नहीं है; यह मशीनों को हमारे भौतिक संसार की रियल-टाइम समझ देने के बारे में है। एक “3D फाउंडेशन मॉडल” के रूप में, यह उस बड़े बदलाव का हिस्सा है जहाँ AI सिर्फ टेक्स्ट या इमेज तक सीमित नहीं रहेगा, बल्कि जटिल वातावरण में रास्ता ढूँढने और दुनिया के साथ तालमेल बिठाने में सक्षम होगा—जो एम्बेडेड AI (embodied AI) के भविष्य की नींव है।

Ant Group का नया AI वीडियो को रियल-टाइम 3D दुनिया में बदलता है

यह क्यों मायने रखता है?

हमें सुधार या सुझाव भेजें