18 दिसंबर, 2025 को Google ने बेहद खामोशी के साथ FunctionGemma को पेश किया। यह महज 270 मिलियन पैरामीटर्स वाला एक छोटा सा AI मॉडल है, जिसे पूरी तरह से डिवाइस पर ही चलाने के लिए डिजाइन किया गया है। प्रेस रिलीज में तो सारा ध्यान स्मार्टफोन्स पर था—रिमाइंडर सेट करना, फ्लैशलाइट जलाना और वही पुराने डिजिटल असिस्टेंट वाले काम। लेकिन इन तकनीकी बारीकियों के बीच कुछ ऐसा छिपा है जो कहीं ज्यादा रोमांचक है: यह रोबोट्स को नाटकीय रूप से सस्ता बनाने का एक मास्टरप्लान है।
आज के “स्मार्ट” रोबोट्स की एक कड़वी हकीकत यह है कि उनमें से ज्यादातर असल में स्मार्ट हैं ही नहीं। वे सिर्फ ‘टर्मिनल्स’ हैं। उनकी असल बुद्धि हजारों किलोमीटर दूर किसी डेटा सेंटर में बैठी है, जो एक इंटरनेट लिंक से जुड़ी है। यह लिंक न केवल देरी (latency) पैदा करता है और पैसा खर्च कराता है, बल्कि सिग्नल जाते ही दम तोड़ देता है। जब भी आपके गोदाम (warehouse) में काम करने वाले रोबोट को कोई फैसला लेना होता है, तो वह किसी घबराए हुए बच्चे की तरह ‘घर फोन’ करके इजाजत मांगता है।
FunctionGemma इस पूरे गणित को ही बदल देता है।
वे आंकड़े जो मायने रखते हैं
मार्केटिंग की लफ्फाजी को छोड़िए और उन आंकड़ों पर नजर डालिए जो रोबोटिक्स के लिए वाकई अहम हैं:
- 288 MB स्टोरेज फुटप्रिंट – यह सबसे सस्ते माइक्रोकंट्रोलर्स पर भी फिट हो सकता है।
- 550 MB RAM – एक साधारण Raspberry Pi 4 में भी इसके लिए काफी जगह बच जाएगी।
- 0.3 सेकंड का रिस्पॉन्स टाइम – डिवाइस पर ही प्रोसेसिंग, क्लाउड तक आने-जाने का कोई झंझट नहीं।
- 58% बेसलाइन सटीकता → फाइन-ट्यूनिंग के बाद 85% – इसे खास कामों के लिए ट्रेन किया जा सकता है।
यह आखिरी पॉइंट सबसे महत्वपूर्ण है। FunctionGemma कोई आम चैटबॉट बनने के लिए नहीं बना है। इसे संकीर्ण और विशिष्ट कार्यों के लिए ‘फाइन-ट्यून’ (सटीक) करने के लिए डिजाइन किया गया है—और रोबोट्स यही तो करते हैं। किसी वेयरहाउस रोबोट को दर्शनशास्त्र पर चर्चा करने की जरूरत नहीं है। उसे बस यह समझने की जरूरत है कि “बॉक्स A उठाओ और शेल्फ B पर रख दो” और इसे दिन में हजारों बार बिना गलती के दोहराना है।
क्लाउड पर निर्भर रोबोट क्यों एक ‘डेड एंड’ हैं?
“इंटेलिजेंट” रोबोट्स का मौजूदा मॉडल बुनियादी तौर पर दोषपूर्ण है। जरा सोचिए कि जब आपके रोबोट को कोई फैसला लेना होता है तो क्या होता है:
- सेंसर डेटा कैप्चर होता है।
- डेटा कंप्रेस होकर क्लाउड पर भेजा जाता है।
- क्लाउड सर्वर रिक्वेस्ट को प्रोसेस करता है।
- जवाब वापस भेजा जाता है।
- रोबोट उस पर एक्शन लेता है।
ये पांच स्टेप्स हैं और हर स्टेप पर फेल होने की गुंजाइश है। नेटवर्क जाम हुआ? रोबोट ठप। सर्वर ओवरलोड हुआ? रोबोट इंतजार करेगा। इंटरनेट गया? तो आपका रोबोट बस एक ‘महंगा खिलौना’ बनकर रह जाएगा। साथ ही, आप कंप्यूटिंग के हर मिलीसेकंड और डेटा ट्रांसफर के हर मेगाबाइट के लिए भुगतान कर रहे हैं।
एक घर के वैक्यूम क्लीनर के लिए शायद यह बर्दाश्त किया जा सके। लेकिन 24/7 चलने वाले 500 वेयरहाउस रोबोट्स के बेड़े के लिए? क्लाउड का बिल ही आपको दिवालिया कर सकता है, और रिस्पॉन्स में होने वाली देरी रीयल-टाइम तालमेल को लगभग नामुमकिन बना देती है।
रोबोटिक्स में ‘एज कंप्यूटिंग’ की क्रांति
FunctionGemma एक वैचारिक बदलाव का प्रतीक है: यह पूछने के बजाय कि “हम रोबोट्स को इतना स्मार्ट कैसे बनाएं कि उन्हें क्लाउड की जरूरत पड़े,” Google पूछ रहा है कि “हम क्लाउड को इतना छोटा कैसे बनाएं कि वह एक रोबोट के अंदर समा जाए।”
यह कोई नई बात नहीं है। ऑटोमोटिव इंडस्ट्री ने इसे सालों पहले समझ लिया था—आपकी कार का ऑटोमैटिक इमरजेंसी ब्रेकिंग सिस्टम ब्रेक लगाने से पहले Google को फोन नहीं करता। फैसला स्थानीय स्तर पर, मिलीसेकंड में होता है, क्योंकि देरी जानलेवा हो सकती है। लेकिन अब तक, नेचुरल लैंग्वेज (प्राकृतिक भाषा) को समझने और उन्हें एक्शन में बदलने वाले AI मॉडल इतने बड़े थे कि उन्हें डिवाइस पर चलाना मुमकिन नहीं था।
किफायती रोबोटिक्स की तस्वीर
कल्पना कीजिए एक $200 के होम असिस्टेंट रोबोट की जिसमें:
- आम कमांड्स के लिए पूरी समझ हो।
- कोई मंथली सब्सक्रिप्शन फीस न हो।
- इंटरनेट न होने पर भी पूरी तरह काम करे।
- आपका वॉयस डेटा कभी डिवाइस से बाहर न जाए।
- कमांड्स पर तुरंत एक्शन हो।
या उन कृषि रोबोट्स के बारे में सोचिए जो बिना किसी सेलुलर नेटवर्क के खेतों में काम कर सकते हैं। आपदा राहत (disaster response) वाले ड्रोन जिन्हें काम करने के लिए Starlink की जरूरत नहीं है। बुजुर्गों की देखभाल करने वाले साथी जिन्हें दवा याद दिलाने के लिए क्लाउड सब्सक्रिप्शन की जरूरत नहीं है।
लागत में यह बचत हर स्तर पर दिखती है। सस्ता कंप्यूट हार्डवेयर मतलब सस्ता रोबोट। क्लाउड पर निर्भरता नहीं मतलब कोई बार-बार लगने वाला शुल्क नहीं। लोकल प्रोसेसिंग मतलब नेटवर्क की कम जरूरत। और डिजाइन में प्राइवेसी का मतलब है कानूनी मंजूरी मिलना आसान।
“ट्रैफिक कंट्रोलर” आर्किटेक्चर
Google इतना नादान नहीं है कि वह यह दावा करे कि FunctionGemma पूरी तरह से बड़े लैंग्वेज मॉडल्स की जगह ले लेगा। उनका प्रस्तावित आर्किटेक्चर ज्यादा स्मार्ट है: FunctionGemma को एक स्थानीय “ट्रैफिक कंट्रोलर” के रूप में इस्तेमाल करें जो 90% साधारण कमांड्स को तुरंत संभाल ले, और केवल जटिल सवालों को ही क्लाउड पर भेजे।
एक रोबोट के लिए यह कुछ ऐसा दिखेगा:
- लोकल हैंडलिंग: “आगे बढ़ो,” “रुको,” “लाल वस्तु उठाओ,” “चार्जिंग स्टेशन पर वापस जाओ।”
- क्लाउड रूटिंग: “इस अजीब सी दिखने वाली चीज का विश्लेषण करो और बताओ यह क्या है,” “इस नए वातावरण में सबसे अच्छा रास्ता प्लान करो।”
यह हाइब्रिड अप्रोच आपको रूटीन कामों के लिए एज कंप्यूटिंग की रफ्तार और विश्वसनीयता देती है, जबकि मुश्किल मामलों के लिए क्लाउड-स्केल इंटेलिजेंस का विकल्प भी खुला रखती है।
फाइन-ट्यूनिंग का जादू
रोबोटिक्स के लिए शायद सबसे अहम पहलू FunctionGemma की ट्रेनिंग क्षमता है। 58% की बेसलाइन सटीकता सुनने में खराब लगती है—और एक जनरल-पर्पज असिस्टेंट के लिए यह वाकई खराब है। लेकिन जब इसे रोबोट कमांड्स और एक्शन्स की एक खास शब्दावली पर फाइन-ट्यून किया जाता है, तो यह 85% तक पहुंच जाती है।
अब सोचिए क्या होगा जब कोई रोबोटिक्स कंपनी इसे अपने खास काम के लिए फाइन-ट्यून करेगी:
- वेयरहाउस पिकिंग रोबोट: 50 मुख्य कमांड्स, सीमित शब्दावली, और सटीकता 95% से ऊपर।
- डिलीवरी ड्रोन: नेविगेशन कमांड्स, सेफ्टी ओवरराइड्स, और मौसम के अनुसार प्रतिक्रिया।
- मैन्युफैक्चरिंग आर्म: सटीक मूवमेंट निर्देश और क्वालिटी कंट्रोल चेक।
हर तरह के रोबोट को अपना एक खास AI दिमाग मिलेगा, जो उसकी जरूरतों के हिसाब से एकदम फिट होगा। यह “एक बड़ा मॉडल सब पर राज करेगा” वाली सोच के बिल्कुल विपरीत है—यह मॉड्यूलर है, कुशल है और तैनात करने के लिए तैयार है।
रोबोट निर्माताओं के लिए इसके मायने
रोबोट बनाने वाली कंपनियों के लिए, FunctionGemma एक रणनीतिक मोड़ है:
लागत संरचना में बदलाव: एक “स्मार्ट” रोबोट की निर्माण लागत (BOM) में सैकड़ों डॉलर की कमी आ सकती है, क्योंकि आपको महंगे नेटवर्किंग हार्डवेयर और क्लाउड कनेक्टिविटी की जरूरत नहीं होगी।
सब्सक्रिप्शन मॉडल का अंत: ‘रोबोट-एज-ए-सर्विस’ मॉडल ग्राहकों को बांधे रखने के लिए क्लाउड पर निर्भर रहता है। लोकल AI उस मॉडल को तोड़ देता है—और ग्राहक इस बदलाव को पसंद करेंगे।
विश्वसनीयता अब मुमकिन है: एक रोबोट जो स्वायत्त रूप से (autonomously) काम कर सकता है, उसका मतलब है कि वह बिना किसी तामझाम वाले नेटवर्क के भी हमेशा काम के लिए तैयार रहेगा।
प्राइवेसी एक फीचर: जो डेटा डिवाइस से बाहर ही नहीं निकलता, उसे न तो हैक किया जा सकता है, न लीक किया जा सकता है।
क्या कमी रह गई है?
हमें इसे जरूरत से ज्यादा बढ़ा-चढ़ाकर भी नहीं देखना चाहिए। FunctionGemma की अपनी सीमाएं हैं:
- मल्टी-स्टेप रीजनिंग की कमी: “बॉक्स उठाओ, लेबल चेक करो और उसे सही बिन में डालो” जैसे काम फिलहाल इसकी क्षमता से बाहर हैं।
- अप्रत्यक्ष (indirect) कमांड्स में मुश्किल: “कमरे में बहुत रोशनी है” कहने पर यह शायद लाइट कम न कर पाए।
- 15% एरर रेट: कई कामों के लिए यह ठीक है, लेकिन कुछ संवेदनशील कामों के लिए खतरनाक हो सकता है।
लेकिन ये सॉफ्टवेयर से जुड़ी समस्याएं हैं जिनका समाधान मौजूद है। मल्टी-स्टेप रीजनिंग के लिए chain-of-thought prompting का इस्तेमाल किया जा सकता है। अप्रत्यक्ष कमांड्स को फाइन-ट्यूनिंग से सुधारा जा सकता है। जैसे-जैसे ट्रेनिंग डेटा बढ़ेगा, एरर रेट भी गिरेगा।
असली चुनौती हार्डवेयर की थी। और Google ने यह साबित कर दिया है कि 270 मिलियन पैरामीटर्स व्यावहारिक ‘फंक्शन कॉलिंग’ के लिए काफी हैं। यही असली ब्रेकथ्रू है।
बड़ी तस्वीर
FunctionGemma अकेले दम पर रोबोटिक्स क्रांति नहीं लाएगा। लेकिन यह उस ‘प्रूफ ऑफ कॉन्सेप्ट’ की तरह है जिसकी AI इंडस्ट्री को सख्त जरूरत थी: मशीनों को उपयोगी बनाने के लिए आपको ट्रिलियन-पैरामीटर वाले मॉडल की जरूरत नहीं है। आपको बस सही काम के लिए सही साइज का मॉडल चाहिए।
इसके निहितार्थ रोबोटिक्स से आगे बढ़कर IoT, वियरेबल्स, मेडिकल डिवाइसेस और हर उस चीज तक जाते हैं जिसे ‘घर फोन’ किए बिना फैसले लेने की जरूरत है। लेकिन रोबोटिक्स के लिए, यह वह पल है जिसका इंडस्ट्री को इंतजार था—वह पल जब “स्मार्ट रोबोट” होने के लिए “महंगा रोबोट” होना जरूरी नहीं रह गया।
किफायती रोबोटिक्स का भविष्य क्लाउड में नहीं है। यह 288 मेगाबाइट के उन सधे हुए वेट्स (weights) में है, जो डिवाइस पर चलते हैं, तुरंत जवाब देते हैं और हर जगह काम करते हैं। Google ने हमें इसकी एक झलक दिखा दी है। अब रोबोट बनाने वालों की बारी है कि वे इसे हकीकत में बदलें।













