Google Deepmind présente deux modèles basés sur les Gémeaux pour apporter l’IA dans le monde réel

 Google Deepmind présente deux modèles basés sur les Gémeaux pour apporter l’IA dans le monde réel

Deux mains de robot de DeepMind plaçant des blocs qui disent "Gémeaux pour le monde physique."

L’équipe de robotique de Google applique une expertise dans l’apprentissage automatique, l’ingénierie et la simulation physique pour relever les défis auxquels sont confrontés le développement de robots alimentés par l’IA. | Source: DeepMind

Google Deepmind a introduit aujourd’hui deux nouveaux modèles d’intelligence artificielle: Gemini Robotics, son modèle basé sur Gemini 2.0 conçu pour la robotique, et Gemini Robotics-ER, un modèle Gemini avec une compréhension spatiale avancée.

Deepmind a déclaré qu’il avait progressé dans la façon dont Gemini résout des problèmes complexes grâce à un raisonnement multimodal à travers le texte, les images, l’audio et la vidéo. Maintenant, avec ces nouveaux modèlescela fait sortir ces capacités du monde numérique et du monde réel.

Gemini Robotics, est un modèle avancé de vision-action (VLA) qui a été construit sur Gemini 2.0. Il a ajouté des actions physiques en tant que nouvelle modalité de sortie dans le but de contrôler directement les robots.

Gemini Robotics-ER offre une compréhension spatiale avancée, permettant aux roboticiens de gérer leurs propres programmes en utilisant les capacités de raisonnement incarnées de Gemini (ER).

DeepMind a déclaré que ces deux modèles permettent à une variété de robots d’effectuer une gamme plus large de tâches réelles que jamais. Dans le cadre de ses efforts, DeepMind est partenariat avec Apptronik pour construire humanoïde Robots avec Gemini 2.0.

Le Google Unit travaille également avec des testeurs de confiance pour guider l’avenir de Gemini Robotics-ER. Ils comprennent Robots agiles, Robotique d’agilité, Dynamique de Bostonet Outils enchantés.


AD du site pour l'enregistrement du sommet de la robotique 2025. Inscrivez-vous maintenant pour ne pas manquer!


Comment rendre l’IA utile dans le monde réel

Selon un article de blog DeepMind, pour être utile et utile aux gens, les modèles d’IA pour la robotique ont besoin de trois qualités principales:

  • Ils doivent être généraux, ce qui signifie qu’ils peuvent s’adapter à différentes situations.
  • Ils doivent être interactifs, afin qu’ils puissent comprendre et répondre rapidement aux instructions ou aux changements dans leur environnement.
  • Ils doivent être habiles, ce qui signifie qu’ils peuvent faire le genre de choses que les gens peuvent généralement faire avec leurs mains et leurs doigts, comme manipuler soigneusement des objets.

Pendant que le organisationLes travaux antérieurs ont démontré certains progrès dans ces domaines, Gemini Robotics représente une étape substantielle dans les performances des trois axes.

https://www.youtube.com/watch?v=SY20X_TYWPQ

DeepMind met l’accent sur la généralité et l’interactivité

Gemini Robotics utilise la compréhension du monde de Gemini pour généraliser à de nouvelles situations et résoudre une grande variété de tâches hors de la boîte, y compris les tâches qu’il n’a jamais vues auparavant en formation. Gemini Robotics est également capable de traiter de nouveaux objets, de diverses instructions et de nouveaux environnements, a affirmé Google.

Il a déclaré qu’en moyenne, les Gemini Robotics doublent plus que les performances sur une référence complète de généralisation par rapport aux autres modèles VLA.

En plus de la génréalité, l’interactivité est la clé. Pour opérer dans notre monde dynamique et physique, les robots doivent être capables d’interagir de manière transparente avec les gens et leur environnement, et de s’adapter aux changements à la volée.

Parce qu’il est construit sur une base de Gemini 2.0, Deepmind a dit Gémeaux robotique est intuitivement interactif. Il puise dans les capacités de langue avancées de Gemini et peut comprendre et répondre aux commandes formulées dans les conversations quotidiennes et dans différentes langues.

Le modèle peut comprendre et répondre à un ensemble beaucoup plus large d’instructions en langage naturel que les modèles précédents, adaptant son comportement à la contribution des utilisateurs, a déclaré DeepMind. Il surveille également en permanence son environnement, détecte les modifications de son environnement ou des instructions et ajuste ses actions en conséquence. Ce type de contrôle, ou «direction» peut mieux aider les gens à collaborer avec des assistants de robot dans une gamme de paramètres, de la maison au lieu de travail, a indiqué la société.

https://www.youtube.com/watch?v=hyqs2oaif-i

Les robots de toutes formes et tailles nécessitent une dextérité élevée

Deepmind a déclaré que le troisième pilier clé pour construire un robot utile agit avec la dextérité. De nombreuses tâches quotidiennes que les humains exécutent sans effort ont besoin de moteur fine et sont encore trop difficiles pour les robots.

En revanche, les Gemini Robotics peuvent s’attaquer aux tâches extrêmement complexes et en plusieurs étapes qui nécessitent une manipulation précise, comme le pliage d’origami ou l’emballage d’une collation dans un sac Ziploc, a-t-il expliqué.

De plus, DeepMind a déclaré avoir conçu Gemini Robotics pour s’adapter aux robots de différents facteurs de forme. La société a formé le modèle principalement sur les données de la plate-forme robotique bi-bras, Aloha 2, mais elle a également démontré que le modèle pouvait contrôler une plate-forme à deux bras basée sur les armes Franka utilisées dans de nombreux laboratoires universitaires.

DeepMind a noté que Gemini Robotics peut également être spécialisé pour des modes de réalisation plus complexes, tels que le robot humanoïde Apollo développé par Apptronik, dans le but de terminer les tâches du monde réel.

https://www.youtube.com/watch?v=x-exzzz-ciuw

Gemini Robotics-Er se concentre sur le raisonnement spatial

Gemini Robotics-Er améliore la compréhension du monde par les Gémeaux de la manière nécessaire à la robotique, en se concentrant notamment sur le raisonnement spatial. Il permet également aux roboticistes de le connecter avec leurs contrôleurs de bas niveau existants. Deepmind a déclaré que le modèle améliore considérablement les capacités existantes de Gemini 2.0, telles que le pointage et la détection 3D.

En combinant le raisonnement spatial et les capacités de codage des Gémeaux, Gemini Robotics-ER peut instancier des capacités entièrement nouvelles à la volée, a affirmé DeepMind. Par exemple, lorsqu’on lui montre une tasse à café, le modèle peut intuit une prise à deux doigts appropriée pour le ramasser par la poignée et une trajectoire sûre pour l’approcher.

Gemini Robotics-ER peut effectuer toutes les étapes nécessaires pour contrôler un robot dès la sortie de la boîte, y compris la perception, l’estimation de l’état, la compréhension spatiale, la planification et la génération de code, selon Google. Dans un tel paramètre de bout en bout, le modèle a deux à trois fois plus de succès que Gemini 2.0.

Lorsque la génération de code n’est pas suffisante, Gemini Robotics-ER peut exploiter la puissance de l’apprentissage en contexte, en suivant les modèles d’une poignée de démonstrations humaines pour fournir une solution.

DeepMind considère la sécurité des robots dans l’approche des Gémeaux

DeepMind a déclaré que, alors qu’il explore le potentiel de l’IA et de la robotique, il adopte une approche holistique en couches pour lutter contre la sécurité, du contrôle moteur de bas niveau à une compréhension sémantique de haut niveau.

Gemini Robotics-ER peut s’interfacer avec des contrôleurs critiques de sécurité «de bas niveau» pour faire des choses comme éviter les collisions, limiter l’ampleur des forces de contact et assurer la stabilité dynamique des robots mobiles.

S’appuyant sur les principales caractéristiques de sécurité de Gemini, l’organisation permet aux modèles Gemini Robotics-ER de comprendre si une action potentielle est sûre à effectuer dans un contexte donné et à générer des réponses appropriées.

https://www.youtube.com/watch?v=4mvgnmmp3c0

DeepMind cherche à approfondir des recherches avec un nouvel ensemble de données

Pour faire progresser la recherche sur la sécurité en robotique dans le monde universitaire et l’industrie, DeepMind a également publié un nouvel ensemble de données pour évaluer et améliorer la sécurité sémantique dans l’IA incarnée et la robotique. Dans les travaux précédents, cela a montré comment un «Constitution du robot»Inspiré par les trois lois de la robotique d’Isaac Asimov pourrait aider à inviter un modèle de langue large (LLM) pour sélectionner des tâches plus sûres pour les robots.

L’organisation a depuis développé un cadre pour générer automatiquement des constitutions axées sur les données – des règles exprimées directement dans le langage naturel – pour orienter le comportement d’un robot. Ce cadre permettrait aux gens de créer, de modifier et d’appliquer des constitutions pour développer des robots plus sûrs et plus alignés sur les valeurs humaines.

Enfin, le nouvel asimov ensemble de données Aidera les chercheurs à mesurer rigoureusement les implications de sécurité des actions robotiques dans les scénarios du monde réel, a déclaré Deepmind.



Source link

Related post