Robotics Won't Get a 'ChatGPT Moment,' Say Industry …

Le capital-risque coule à flots, les démos sur YouTube cumulent les millions de vues et les promesses deviennent plus audacieuses de trimestre en trimestre. Après avoir vu les grands modèles de langage (LLM) comme le ChatGPT d’OpenAI conquérir le monde numérique en un clin d’œil, tout le monde se pose la même question à plusieurs milliards de dollars : quand la robotique connaîtra-t-elle enfin son « moment ChatGPT » ?

Selon deux experts qui ont passé des années dans les tranchées de l’IA incarnée (embodied AI), la réponse est cinglante : cela n’arrivera pas. Et vous feriez bien de les écouter. Jonathan W. Hurst, cofondateur d’Agility Robotics (les géniteurs du humanoïde Digit), et Hans Peter Brøndmo, qui a dirigé le projet « moonshot » Everyday Robots chez Google X, viennent de publier un rappel à la réalité salutaire. Ils sont là pour verser un seau d’azote liquide sur le train de la hype, affirmant qu’aucune percée magique et unique en IA ne viendra sauver la mise. Le chemin vers un monde peuplé de robots utiles est pavé d’un travail d’ingénierie épuisant, incrémental et, disons-le franchement, assez peu glamour.

Avec des financements en capital-risque atteignant 6,1 milliards € en 2024, contre 5,1 milliards € en 2023, les enjeux sont astronomiques. Mais comme l’expliquent Hurst et Brøndmo, le fossé entre une démo tape-à-l’œil et un robot commercialement viable, sûr et fiable, reste un gouffre.

Le grand mirage : déconstruire la démo YouTube

Nous les avons toutes vues. Ces vidéos de robots humanoïdes enchaînant les saltos arrière impeccables, exécutant des chorégraphies synchronisées ou se livrant à des combats d’arts martiaux millimétrés. La dernière sensation virale mettait en scène les humanoïdes de Unitree Robotics dans une performance de kung-fu lors du gala de la fête du Printemps 2026 en Chine — une démonstration de coordination impressionnante à quelques centimètres seulement de jeunes figurants.

Hurst et Brøndmo s’empressent de souligner ce que les initiés savent depuis des années : « ne faites jamais confiance à une vidéo de robot sur YouTube ». Ces performances, bien que techniquement bluffantes, sont l’équivalent robotique d’un spectacle de Broadway méticuleusement réglé. Elles démontrent un contrôle moteur de bas niveau et une chorégraphie remarquable, mais leur niveau d’autonomie est plus proche d’un robot de ligne d’assemblage que d’une machine pensante. Le monde réel — bordélique, imprévisible et obstinément non scénarisé — est une tout autre paire de manches. C’est le cas d’école du paradoxe de Moravec : des tâches triviales pour un humain, comme naviguer dans une pièce encombrée, sont monumentalement difficiles pour un robot, tandis que des calculs complexes lui sont enfantins.

La donnée : un défi herculéen et non résolu

Les LLM avaient un avantage colossal : ils ont été entraînés sur Internet, une base de données gigantesque de textes et d’images générés par l’homme. Les robots n’ont pas ce luxe. Pour apprendre, un robot a besoin de données issues du monde physique, un espace multidimensionnel où les variables incluent tout, des angles d’articulation au retour de force, en passant par les conditions d’éclairage et les mouvements imprévisibles des passants.

L’ampleur du défi est vertigineuse. Chez Everyday Robots, l’équipe de Brøndmo a fait tourner 240 millions d’instances de robots simulés en 2022 juste pour entraîner un modèle à trier des déchets avec une compétence acceptable. Et ce n’était que pour une seule compétence relativement simple. Maintenant, multipliez cet effort par le nombre quasi infini de tâches que nous attendons d’un robot polyvalent. C’est un problème de collecte de données d’une magnitude totalement différente, qui reste largement sans solution. Le projet lui-même a d’ailleurs été arrêté début 2023 dans le cadre des coupes budgétaires massives chez la maison mère Alphabet.

Il n’y aura pas d’IA robotique unique

L’idée d’un modèle d’IA unique et monolithique capable de piloter n’importe quel robot — à roues, à pattes, volant ou nageant — relève de la pure science-fiction. Les réalités physiques des différentes incarnations et environnements sont trop vastes. Les auteurs soutiennent que l’architecture gagnante sera ce qu’ils appellent l’« IA agencielle » (agentic AI). Cela implique des modèles de coordination de haut niveau capables de raisonner, de planifier et de déléguer des tâches à une suite d’outils d’IA plus petits et spécialisés. Un modèle pourrait gérer la locomotion bipède, un autre la manipulation fine, et un troisième serait dédié à l’interaction sécurisée entre l’homme et le robot.

Cette approche modulaire, affirment-ils, mènera à une « explosion cambrienne » de machines utiles et intelligentes. Ce ne sera pas un Big Bang unique, mais une floraison de capacités diverses et spécialisées qui, une fois orchestrées correctement, créeront une machine véritablement compétente.

Le hardware reste une souffrance nécessaire

Malgré toute l’attention portée à l’IA, un robot reste un objet physique. Et le matériel, particulièrement les pièces qui lui permettent d’interagir avec le monde, demeure un goulot d’étranglement majeur. La plupart des robots industriels utilisent des actionneurs rigides et puissants, parfaits pour la précision dans une zone grillagée, mais désastreux dans un environnement humain. Une simple collision accidentelle pourrait être catastrophique.

Les humains, en revanche, sont « compliants » (souples). Nous utilisons constamment le toucher et le retour de force, que ce soit pour insérer une clé dans une serrure ou pour prendre appui sur un comptoir. Pour que les robots y parviennent, ils ont besoin d’une nouvelle classe d’actionneurs sensibles, souples et conscients de la force. Bien que ces technologies existent en laboratoire, elles ne sont pas encore disponibles à l’échelle, au coût ou à la fiabilité nécessaires pour un déploiement massif. L’IA la plus brillante au monde est inutile si son corps est un fardeau maladroit et dangereux.

La vraie valeur réside dans la résolution des problèmes « faciles »

La vérité finale, et peut-être la plus importante, est que la valeur ajoutée dans le monde réel ne vient pas des saltos arrière. Elle vient de l’exécution fiable de tâches mondaines, répétitives et souvent physiquement éprouvantes dont les humains ne veulent plus. C’est là que le bât blesse, ou dans ce cas, là où les pieds du robot touchent le sol de l’entrepôt.

Les deux auteurs parlent d’expérience. Lorsqu’Agility Robotics a commencé à déployer Digit chez des clients comme GXO Logistics, ils ont vite compris que leur premier obstacle n’était pas la performance de la tâche, mais la sécurité. Cela a mené à un effort d’ingénierie de plusieurs années pour repenser le robot afin qu’il puisse opérer en toute sécurité dans des espaces humains. De même, l’équipe d’Everyday Robots chez Google a appris à ses dépens à quel point un environnement apparemment simple, comme une cafétéria de bureau, est chaotique pour un robot essayant de nettoyer des tables.

Cette expérience du terrain est la seule voie possible. Elle nourrit l’architecture de l’IA, met en lumière les carences matérielles et ancre les feuilles de route ambitieuses dans la dure réalité des besoins des clients. Il n’existe pas d’algorithme miracle ou de jeu de données capable de remplacer le processus lent, douloureux et coûteux qui consiste à déployer des robots, à les regarder échouer et à concevoir méticuleusement des solutions. L’avenir de la robotique arrive, mais il se fera un pas après l’autre, de manière délibérée et rigoureusement technique.

Robotics Won't Get a 'ChatGPT Moment,' Say Industry Vets. Here's Why.

Le grand mirage : déconstruire la démo YouTube

La donnée : un défi herculéen et non résolu

Il n’y aura pas d’IA robotique unique

Le hardware reste une souffrance nécessaire

La vraie valeur réside dans la résolution des problèmes « faciles »

Envoyez-nous une correction ou une suggestion