Gemini Robotics: les nouveaux modèles d’IA de Google Deepmind pour les robots

 Gemini Robotics: les nouveaux modèles d’IA de Google Deepmind pour les robots

AI génératif Les modèles se rapprochent de l’action dans le monde réel. Déjà, les grandes entreprises d’IA présentent Agents d’IA Cela peut prendre soin du travail chargé sur le Web pour vous, commander vos courses ou faire votre réservation pour le dîner. Aujourd’hui, Google Profondeur annoncéDeux génératifs Modèles d’IA Conçu pour alimenter les robots de demain.

Les modèles sont tous deux construits sur Google Geminiun modèle de fondation multimodal qui peut traiter les données de texte, de voix et d’image pour répondre aux questions, donner des conseils et généralement aider. DeepMind appelle le premier des nouveaux modèles, Gemini Robotiqueun «modèle avancé de l’action visuelle-langue», ce qui signifie qu’il peut prendre toutes ces mêmes entrées et ensuite les instructions de sortie pour les actions physiques d’un robot. Les modèles sont conçus pour fonctionner avec n’importe quel système matériel, mais ont été principalement testés sur les deux bras Aloha 2 Système que DeepMind a introduit l’année dernière.

Dans une vidéo de démonstration, une voix dit: «Ramassez le basket-ball et claquer Dunk It »(à 2:27 dans la vidéo ci-dessous). Puis un bras de robot Prends soigneusement un basket-ball miniature et le laisse tomber dans un filet miniature – et même si ce n’était pas un dunk de niveau NBA, il était suffisant pour exciter les chercheurs DeepMind.

https://www.youtube.com/watch?v=Uyi0k7puyksGoogle Deepmind a publié cette vidéo de démonstration montrant les capacités de son modèle Gemini Robotics Foundation pour contrôler les robots. Gémeaux robotique

« Cet exemple de basket-ball est l’un de mes favoris », a déclaré Kanishka Raole principal ingénieur logiciel du projet, dans un point de presse. Il explique que le robot n’avait «jamais rien vu lié au basket-ball», mais que son modèle de fondation sous-jacent avait une compréhension générale du jeu, savait à quoi ressemblait un filet de basket-ball et comprenait ce que signifiait le terme «slam dunk». Le robot a donc été «capable de relier ces (concepts) pour accomplir réellement la tâche dans le monde physique», explique Rao.

Quelles sont les avancées de la robotique des Gémeaux?

Carolina Paradachef de la robotique chez Google Deepmind, a déclaré dans le briefing que les nouveaux modèles s’améliorent par rapport aux robots antérieurs de l’entreprise en trois dimensions: généralisation, adaptabilité et dextérité. Toutes ces avancées sont nécessaires, a-t-elle dit, pour créer «une nouvelle génération de robots utiles».

La généralisation signifie qu’un robot peut Appliquer un concept qu’il a appris dans un contexte à une autre situation, et les chercheurs ont examiné la généralisation visuelle (par exemple, devient-elle confuse si la couleur d’un objet ou d’un arrière-plan a changé), de la généralisation de l’instruction (peut-elle interpréter les commandes qui sont libellées de différentes manières), et la généralisation de l’action (peut-elle effectuer une action qu’elle n’avait jamais fait auparavant).

Parada dit également que les robots propulsés par les Gémeaux peuvent mieux s’adapter aux instructions et aux circonstances changeantes. Pour démontrer ce point dans une vidéo, un chercheur a dit à un bras de robot de mettre un tas de raisins en plastique dans le conteneur clair Tupperware, puis a procédé à trois conteneurs sur la table dans une approximation du jeu de coquille d’un shyster. Le bras du robot a consciencieusement suivi le conteneur clair jusqu’à ce qu’il puisse remplir sa directive.

https://www.youtube.com/watch?v=gvz78jhkzroGoogle Deepmind dit que Gemini Robotics est meilleur que les modèles précédents pour s’adapter aux instructions et aux circonstances changeantes.Google Deepmind

Quant à la dextérité, les vidéos de démonstration ont montré les bras robotiques pliant un morceau de papier dans un origami Fox et effectuer d’autres tâches délicates. Cependant, il est important de noter que la performance impressionnante ici est dans le contexte de Un ensemble étroit de données de haute qualité sur lesquelles le robot a été formé pour ces tâches spécifiques, de sorte que le niveau de dextérité que ces tâches représentent n’est pas généralisé.

Qu’est-ce que le raisonnement incarné?

Le deuxième modèle introduit aujourd’hui est Gemini Robotics-ER, avec les urgences pour le «raisonnement incarné», qui est le genre de monde physique intuitif comprenant que les humains développent avec l’expérience au fil du temps. Nous sommes en mesure de faire des choses intelligentes comme regarder un objet que nous n’avons jamais vu auparavant et faire une supposition éclairée sur la meilleure façon d’interagir avec elle, et c’est ce que DeepMind cherche à imiter avec Gemini Robotics-ER.

Parada a donné un exemple de la capacité de Gemini Robotics-ER à identifier un point de saisie approprié pour ramasser un café tasse. Le modèle identifie correctement la poignée, car c’est là que les humains ont tendance à comprendre les tasses à café. Cependant, cela illustre une faiblesse potentielle de s’appuyer sur données de formation: Pour un robot, en particulier un robot qui pourrait être capable de gérer confortablement une tasse de café chaud, une poignée mince pourrait être un point de saisie beaucoup moins fiable qu’une compréhension plus enveloppante de la tasse elle-même.

L’approche de Deepmind en matière de sécurité robotique

Vikas SindhwaniLe chef de la sécurité robotique de Deepmind pour le projet, dit que l’équipe a adopté une approche en couches de la sécurité. Cela commence par des contrôles de sécurité physique classiques qui gèrent des choses comme Évitement des collisions et la stabilité, mais comprend également des systèmes de «sécurité sémantique» qui évaluent à la fois ses instructions et les conséquences de les suivre. Ces systèmes sont les plus sophistiqués dans le modèle Gemini Robotics-ER, explique Sindhwani, qui est «formé pour évaluer si une action potentielle est sûre à effectuer dans un scénario donné».

Et parce que «la sécurité n’est pas une entreprise compétitive», dit Sindhwani, DeepMind publie un nouvel ensemble de données et ce qu’il appelle le Benchmark Asimovqui est destiné à mesurer la capacité d’un modèle à comprendre les règles de vie de bon sens. La référence contient à la fois des questions sur les scènes visuelles et les scénarios de texte, demandant des opinions des modèles sur des choses comme l’opportunité de mélanger le blanchissement et le vinaigre (une combinaison qui fait du chlore gazeux) et de mettre un jouet doux sur un poêle chaud. Dans le point de presse, Sindhwani a déclaré que les modèles Gemini avaient de «fortes performances» sur cette référence et la rapport technique ont montré que les modèles obtenaient plus de 80% des questions correctes.

Les partenariats robotiques de DeepMind

En décembre, Deepmind et la Humanoid Robotics Company Apptronik annoncé un partenariatet Parada dit que les deux sociétés travaillent ensemble «pour construire la prochaine génération de robots humanoïdes avec des Gémeaux à la base. » DeepMind met également ses modèles à la disposition d’un groupe d’élite de «testeurs de confiance»: Robots agiles, Robotique d’agilité, Dynamique de Bostonet Outils enchantés.

À partir des articles de votre site

Articles connexes sur le Web



Source link

Related post