Google Deepmind publie deux nouveaux modèles d’IA pour le développement de la robotique

Google Deepmind a introduit deux nouveaux modèles d’intelligence artificielle – Gémeaux robotique et Gemini Robotics-Er (abréviation du «raisonnement incarné»). Google dit que cela marque un «pas en avant» dans le développement de systèmes d’IA conçus pour contrôler les robots du monde réel.
Les deux modèles sont construits sur la plate-forme Gemini 2.0 et visent à permettre aux robots d’effectuer une large gamme de tâches avec une plus grande généralité, interactivité et dextérité. L’initiative comprend également un partenariat avec le fabricant de robots humanoïdes Apptronik pour intégrer ces capacités dans la prochaine génération d’assistants robotiques.
Gémeaux robotique: vision, langue et action combinées
Le premier modèle, Gemini Robotics, est un système d’action-action en vision (VLA) conçu pour contrôler les robots physiques. Contrairement aux modèles précédents, il ajoute des actions physiques en tant que nouvelle modalité de sortie, ce qui lui permet d’interagir avec des objets et des environnements d’une manière plus naturelle et humaine.
Google Deepmind dit que le modèle excelle dans trois domaines centraux: la généralité, l’interactivité et la dextérité. Il peut généraliser entre les tâches, gérer de nouveaux environnements, répondre aux instructions du langage naturel dans plusieurs langues et effectuer des manipulations complexes telles que le pliage d’origami ou des objets d’emballage dans des conteneurs.
Il est également capable de s’adapter à diverses plates-formes robotiques, y compris des systèmes à double bras comme Aloha 2 et des robots humanoïdes plus complexes tels que Apollo d’Apptronik.
Gemini Robotics-ER: raisonnement spatial avancé
Le deuxième modèle, Gemini Robotics-ER, améliore la compréhension spatiale et contextuelle du système. Il permet aux robotiques d’intégrer les capacités de raisonnement des Gémeaux dans leurs propres cadres robotiques, reliant le modèle à des contrôleurs de bas niveau pour une meilleure autonomie.
Ce modèle s’améliore considérablement sur les capacités de Gemini 2.0 dans la détection 3D, l’estimation de l’État, la planification et le raisonnement spatial. Par exemple, lorsqu’on lui montre un objet comme une tasse, Gemini Robotics-ER peut déduire l’approche de saisie correcte et planifier un chemin de mouvement sûr. Il exploite également l’apprentissage en contexte, ce qui lui permet d’apprendre de nouvelles tâches à partir de quelques démonstrations humaines.
Sécurité et développement responsable
DeepMind dit qu’il poursuit une approche en couches de la sécurité de l’IA, intégrant des garanties à des niveaux de fonctionnement bas et élevés. Gemini Robotics-ER peut être jumelé avec des systèmes traditionnels à la sécurité, tout en comprenant si une tâche est sémantiquement sûre dans son contexte.
Pour soutenir la recherche sur la sécurité, Deepmind a également développé un ensemble de données appelé Asimov, inspiré par les trois lois de la robotique d’Isaac Asimov. L’ensemble de données aide les chercheurs à évaluer la sécurité sémantique et à construire des constitutions basées sur des règles pour guider le comportement des robots.
Parallèlement à Apptronik, le modèle Gemini Robotics-ER est testé par certains partenaires, notamment Boston Dynamics, Agility Robotics, Agile Robots et Enchanted Tools.
DeepMind dit qu’il prévoit de continuer à affiner ces modèles pour aider à inaugurer une nouvelle génération de systèmes robotiques polyvalents, sûrs et utiles.