Un moment Chatgpt arrive pour la robotique. Les modèles mondiaux AI pourraient aider à y arriver.

Si vous n’êtes pas encore familier avec le concept de «modèles mondiaux», une tempête d’activité au début de 2025 donne à chaque indication qu’elle pourrait bientôt devenir un terme bien connu.
Jensen Huang, PDG de Nvidia, a utilisé sa présentation principale au CES à annoncer Une nouvelle plate-forme, Cosmos, pour ce qu’ils appellent des «modèles de fondation mondiale». Cosmos est un outil d’IA génératif qui produit des vidéos de type monde virtuel. Le lendemain, DeepMind de Google révélé Ambitions similaires avec un projet dirigé par un ancien ingénieur OpenAI. Tout cela vient plusieurs mois après une startup intrigante, Laboratoires du mondeAtteint statut de licorne—Une startup a évalué 1 milliard de dollars ou plus – sans quatre mois pour faire la même chose.
Pour comprendre ce que sont les modèles mondiaux, il vaut la peine de souligner que Nous sommes à un point d’inflexion Dans la façon dont nous construisons et déployons des machines intelligentes comme les drones, les robots et les véhicules autonomes. Plutôt que de programmer explicitement le comportement, les ingénieurs sont Se tourner vers la simulation informatique 3D et l’IA pour laisser les machines enseigner eux-mêmes. Cela signifie des mondes virtuels physiquement précis deviennent Une source essentielle de données de formation pour enseigner aux machines à percevoir, comprendre et naviguer dans un espace tridimensionnel.
Ce que les modèles de grande langue sont pour des systèmes comme Chatgpt, les modèles mondiaux sont aux simulateurs mondiaux virtuels nécessaires pour former des robots. Par conséquent, les modèles mondiaux sont un type d’outil d’IA génératif capable de produire des environnements 3D et simuler des mondes virtuels. Tout comme Chatgpt est construit avec une interface de chat intuitive, les interfaces mondiales de model pourraient permettre à plus de personnes, même celles sans compétences de développeur de jeux techniques, de créer des mondes virtuels 3D. Ils pourraient également aider les robots à mieux comprendre, planifier et naviguer dans leur environnement.
Pour être clair, la plupart des modèles du début du monde, y compris ceux annoncés par NVIDIA, génèrent des données de formation spatiale dans un format vidéo. Il existe cependant déjà des modèles capables de produire des scènes entièrement immersives. Un outil fabriqué par une startup appelée OdysséeUtilisations Splatting gaussien Pour créer des scènes qui peut être chargé dans des outils logiciels 3D comme un moteur Unreal et un mélangeur. Une autre startup, Decart, a fait la démonstration de leur modèle mondial En tant que version jouable d’un jeu similaire à Minecraft. DeepMind est également parti le voie du jeu vidéo.
Tout cela reflète le potentiel de changements dans la façon dont les graphiques informatiques fonctionnent à un niveau fondamental. En 2023, Huang prévu qu’à l’avenir, «chaque pixel sera généré, non rendu mais généré». Il a récemment pris un Vue plus nuancée En disant que les systèmes de rendu traditionnels ne sont pas susceptibles de disparaître complètement. Il est clair, cependant, que l’IA générative prédisant les pixels à montrer pourrait bientôt empiéter sur le travail que les moteurs de jeu font aujourd’hui.
Les implications pour la robotique sont potentiellement énormes.
Nvidia travaille maintenant dur pour Établir l’étiquette de marque «AI physique» En tant que terme pour les systèmes intelligents qui alimenteront AMR, drones d’inventaire, robots humanoïdes, véhicules autonomes, Tracteurs sans fermier, robots de livraisonet plus. Pour donner à ces systèmes la capacité d’effectuer leur travail efficacement dans le monde réel, en particulier dans les environnements avec des humains, ils doivent s’entraîner à des simulations physiquement précises. Les modèles mondiaux pourraient potentiellement produire des scénarios d’entraînement synthétiques de toute variété imaginable.
Cette idée est à l’origine du changement dans la façon dont les entreprises articulent le chemin à suivre pour l’IA, et World Labs en est peut-être la meilleure expression. Fondée par Fei-Fei Li, connue sous le nom de marraine de l’IA pour son travail fondamental dans la vision informatique, les laboratoires du monde se définissent comme une entreprise de renseignement spatial. À leur avis, pour réaliser une véritable intelligence générale, AIS aura besoin d’un capacité à « Raison sur les objets, les lieux et les interactions dans l’espace 3D et le temps. » Comme leurs concurrents, ils cherchent à construire des modèles de fondation capables de déplacer l’IA dans un espace tridimensionnel.
À l’avenir, ceux-ci pourraient évoluer vers une représentation interne et comme l’humanité du monde et de ses règles. Cela pourrait permettre aux AIS de prédire comment leurs actions affecteront l’environnement qui les entoure et planifier des approches raisonnables pour accomplir une tâche. Par exemple, une IA peut apprendre que si vous serrez un œuf trop fort, il se fissurera. Pourtant, le contexte est important. Si votre objectif est de le placer dans un carton, allez-y doucement, mais si vous préparez une omelette, traquez.
Bien que les modèles mondiaux puissent vivre un peu d’un moment, il est tôt et il y a encore des limitations importantes à court terme. La formation et la course à pied des modèles mondiaux nécessitent des quantités massives de puissance de calcul, même par rapport à l’IA d’aujourd’hui. De plus, les modèles ne sont pas encore conformes de manière fiable avec les règles du monde réel, et comme toute l’IA génératrice, ils seront façonnés par les biais dans leurs propres données de formation.
Comme TechCrunch‘s Kyle Wiggers écrit«Un modèle mondial formé en grande partie sur des vidéos de temps ensoleillé dans les villes européennes pourrait avoir du mal à comprendre ou à représenter les villes coréennes dans des conditions de neige.» Pour ces raisons, des outils de simulation traditionnels comme les moteurs de jeu et de physique seront toujours utilisés pendant un certain temps pour rendre des scénarios de formation pour les robots. Et la tête de Meta de l’IA, Yann LeCun, qui a écrit profondément sur le concept en 2022pense toujours que les modèles mondiaux avancés – comme ceux de nos têtes –prendra un certain temps à se développer.
Pourtant, c’est un moment passionnant pour les roboticiens. Tout comme Chatgpt a signalé un point d’inflexion pour que l’IA entre dans la sensibilisation traditionnelle; Les robots, les drones et les systèmes d’IA incarnés peuvent approcher un moment de rupture similaire. Pour y arriver, des environnements 3D physiquement précis deviendront le terrain d’entraînement pour que ces systèmes apprennent et mûrissent.
Les modèles du début du monde peuvent faciliter la génération des développeurs plus faciles à générer le nombre d’innombrables scénarios de formation nécessaire pour apporter une époque de machines spatialement intelligentes.