Gemini Robotics apporte l’IA dans le monde physique
Recherche
Présentation de Gemini Robotics, notre modèle basé sur Gemini 2.0 conçu pour la robotique
Chez Google DeepMind, nous avons progressé dans la façon dont nos modèles Gemini résolvent des problèmes complexes grâce à un raisonnement multimodal à travers le texte, les images, l’audio et la vidéo. Jusqu’à présent cependant, ces capacités ont été largement confinées dans le domaine numérique. Pour que l’IA soit utile et utile aux personnes dans le domaine physique, ils doivent démontrer le raisonnement «incarné» – la capacité humaine de comprendre et de réagir au monde qui nous entoure – ainsi que pour prendre des mesures en toute sécurité pour faire avancer les choses.
Aujourd’hui, nous présentons deux nouveaux modèles d’IA, basés sur Gemini 2.0, qui jette les bases d’une nouvelle génération de robots utiles.
Le premier est Gemini Robotics, un modèle avancé de vision-action (VLA) qui a été construit sur Gemini 2.0 avec l’ajout d’actions physiques en tant que nouvelle modalité de sortie dans le but de contrôler directement les robots. Le second est Gemini Robotics-ER, un modèle de Gémeaux avec une compréhension spatiale avancée, permettant aux roboticiens de gérer leurs propres programmes en utilisant les capacités de raisonnement incarné de Gémeaux (ER).
Ces deux modèles permettent à une variété de robots d’effectuer une gamme plus large de tâches du monde réel que jamais auparavant. Dans le cadre de nos efforts, nous nous associons à Apptronik pour construire la prochaine génération de robots humanoïdes avec Gemini 2.0. Nous travaillons également avec un nombre sélectionné de testeurs de confiance pour guider l’avenir de Gemini Robotics-ER.
Nous sommes impatients d’explorer les capacités de nos modèles et de continuer à les développer sur le chemin des applications du monde réel.
Gemini Robotics: Notre modèle de vision-action de vision le plus avancé
Pour être utiles et utiles aux gens, les modèles d’IA pour la robotique ont besoin de trois qualités principales: elles doivent être générales, ce qui signifie qu’ils peuvent s’adapter à différentes situations; Ils doivent être interactifs, ce qui signifie qu’ils peuvent comprendre et répondre rapidement aux instructions ou aux changements dans leur environnement; Et ils doivent être habiles, ce qui signifie qu’ils peuvent faire le genre de choses que les gens peuvent généralement faire avec leurs mains et leurs doigts, comme manipuler soigneusement des objets.
Alors que nos travaux antérieurs ont démontré des progrès dans ces domaines, Gemini Robotics représente une étape substantielle dans les performances des trois axes, nous rapprochant des robots à usage vraiment générale.
Généralité
Gemini Robotics tire parti de la compréhension du monde de Gemini pour généraliser à de nouvelles situations et résoudre une grande variété de tâches hors de la boîte, y compris les tâches qu’il n’a jamais vues auparavant en formation. Gemini Robotics est également capable de gérer de nouveaux objets, de diverses instructions et de nouveaux environnements. Dans Notre rapport technologiquenous montrons qu’en moyenne, les Gemini Robotics doublent plus que les performances sur une référence complète de généralisation par rapport à d’autres modèles d’action de la vision de la pointe de la technologie.
Une démonstration de la compréhension du monde de Gemini Robotics.
Interactivité
Pour opérer dans notre monde dynamique et physique, les robots doivent être capables d’interagir de manière transparente avec les gens et leur environnement, et de s’adapter aux changements à la volée.
Parce qu’il est construit sur une base de Gemini 2.0, Gemini Robotics est intuitivement interactif. Il exploite les capacités avancées de compréhension des langues de Gémeaux et peut comprendre et répondre aux commandes formulées dans le langage de la conversation quotidien et dans différentes langues.
Il peut comprendre et répondre à un ensemble beaucoup plus large d’instructions en langage naturel que nos modèles précédents, adaptant son comportement à votre contribution. Il surveille également en permanence son environnement, détecte les modifications de son environnement ou des instructions et ajuste ses actions en conséquence. Ce type de contrôle, ou «direction» peut mieux aider les gens à collaborer avec des assistants de robot dans une gamme de paramètres, de la maison au lieu de travail.
Si un objet se glisse de sa prise ou que quelqu’un déplace un article autour, Gemini Robotics replans et continue – une capacité cruciale pour les robots dans le monde réel, où les surprises sont la norme.
Dextérité
Le troisième pilier clé pour construire un robot utile agit avec dextérité. De nombreuses tâches quotidiennes que les humains exécutent sans effort nécessitent une motricité étonnamment fine et sont encore trop difficiles pour les robots. En revanche, les Gemini Robotics peuvent s’attaquer aux tâches extrêmement complexes et en plusieurs étapes qui nécessitent une manipulation précise telle que le pliage d’origami ou l’emballage d’une collation dans un sac Ziploc.
Gemini Robotics affiche des niveaux avancés de dextérité
Modes de réalisation multiples
Enfin, comme les robots se présentent dans toutes les formes et tailles, Gemini Robotics a également été conçu pour s’adapter facilement à différents types de robots. Nous avons formé le modèle principalement sur les données de la plate-forme robotique à bi-bras, Aloha 2mais nous avons également démontré qu’il pourrait contrôler une plate-forme bi-bras, basée sur les armes Franka utilisées dans de nombreux laboratoires universitaires. Les Gemini Robotics peuvent même être spécialisés pour des modes de réalisation plus complexes, tels que le robot humanoïde Apollo développé par Apptronik, dans le but de terminer les tâches du monde réel.
Gemini Robotics fonctionne sur différents types de robots
Améliorer la compréhension du monde des Gémeaux
Aux côtés de Gemini Robotics, nous introduisons un modèle avancé de langue de vision appelée Gemini Robotics-ER (abréviation de «Raisonnement incarné»). Ce modèle améliore la compréhension du monde par les Gémeaux de la manière nécessaire à la robotique, en se concentrant particulièrement sur le raisonnement spatial, et permet aux roboticiens de le connecter avec leurs contrôleurs de bas niveau existants.
Gemini Robotics-Er améliore les capacités existantes de Gemini 2.0 comme le pointage et la détection 3D par une grande marge. En combinant le raisonnement spatial et les capacités de codage des Gémeaux, Gemini Robotics-ER peut instancier des capacités entièrement nouvelles à la volée. Par exemple, lorsqu’on lui montre une tasse à café, le modèle peut intuit une prise à deux doigts appropriée pour le ramasser par la poignée et une trajectoire sûre pour l’approcher.
Gemini Robotics-ER peut effectuer toutes les étapes nécessaires pour contrôler un robot dès la sortie de la boîte, y compris la perception, l’estimation de l’état, la compréhension spatiale, la planification et la génération de code. Dans un tel réglage de bout en bout, le modèle atteint un taux de réussite 2x-3x par rapport à Gemini 2.0. Et lorsque la génération de code n’est pas suffisante, Gemini Robotics-ER peut même exploiter la puissance de l’apprentissage en contexte, en suivant les modèles d’une poignée de démonstrations humaines pour fournir une solution.
Gemini Robotics-Er excelle sur les capacités de raisonnement incarnées, y compris la détection d’objets et le pointage des parties d’objets, la recherche de points correspondants et la détection d’objets en 3D.
Avance de l’IA et de la robotique de manière responsable
Alors que nous explorons le potentiel continu de l’IA et de la robotique, nous prenons une couche, holistique Approche pour lutter contre la sécurité dans nos recherches, du contrôle moteur de bas niveau à une compréhension sémantique de haut niveau.
La sécurité physique des robots et des personnes qui les entourent est une préoccupation fondamentale de longue date de la science de la robotique. C’est pourquoi les robotiques ont des mesures de sécurité classiques telles que l’évitement des collisions, la limitation de l’ampleur des forces de contact et la garantie de la stabilité dynamique des robots mobiles. Gemini Robotics-ER peut être interfacé avec ces contrôleurs critiques de sécurité «de bas niveau», spécifiques à chaque mode de réalisation particulier. S’appuyant sur les principales caractéristiques de sécurité de Gemini, nous permettons aux modèles Gemini Robotics-ER pour comprendre si une action potentielle est sûre à effectuer dans un contexte donné et à générer des réponses appropriées.
Pour faire progresser la recherche sur la sécurité en robotique dans le monde universitaire et l’industrie, nous publions également un nouvel ensemble de données pour évaluer et améliorer la sécurité sémantique dans l’IA incarnée et la robotique. Dans les travaux précédents, nous avons montré comment un Constitution du robot Inspiré par les trois lois de la robotique d’Isaac Asimov pourrait aider à inciter un LLM à sélectionner des tâches plus sûres pour les robots. Nous avons depuis développé un cadre pour générer automatiquement des constitutions axées sur les données – des règles exprimées directement dans le langage naturel – pour orienter le comportement d’un robot. Ce cadre permettrait aux gens de créer, de modifier et d’appliquer des constitutions pour développer des robots plus sûrs et plus alignés sur les valeurs humaines. Enfin, le Nouveau ensemble de données Asimov Aidera les chercheurs à mesurer rigoureusement les implications de sécurité des actions robotiques dans les scénarios du monde réel.
Pour évaluer davantage les implications sociétales de notre travail, nous collaborons avec des experts dans notre équipe responsable de développement et d’innovation ainsi que notre Conseil de responsabilité et de sécurité, un groupe d’examen interne déterminé à nous assurer de développer des applications d’IA de manière responsable. Nous consultons également des spécialistes externes sur des défis et des opportunités particuliers présentés par l’IA incarnée dans les applications robotiques.
En plus de notre partenariat avec Apptronik, notre modèle Gemini Robotics-ER est également disponible pour les testeurs de confiance, notamment des robots agiles, des robots d’agilité, de la dynamique de Boston et des outils enchantés. Nous sommes impatients d’explorer les capacités de nos modèles et de continuer à développer l’IA pour la prochaine génération de robots plus utiles.
Remerciements
Ce travail a été développé par l’équipe Gemini Robotics. Pour une liste complète des auteurs et des remerciements, veuillez consulter Notre rapport technique.
