Gemini Robotics utilise le modèle de langue supérieure de Google pour rendre les robots plus utiles

 Gemini Robotics utilise le modèle de langue supérieure de Google pour rendre les robots plus utiles


Bien que le robot n’ait pas été parfait pour suivre les instructions, et que les vidéos montrent qu’elle est assez lente et un peu janky, la capacité de s’adapter à la volée – et de comprendre les commandes en langue naturelle – est vraiment impressionnante et reflète un grand pas en avant par rapport à l’endroit où la robotique est depuis des années.

«Une implication sous-estimée des progrès dans les modèles de grands langues est que tous parlent couramment la robotique», explique Liphardt. «Cette (recherche) fait partie d’une vague croissante d’excitation des robots devenant rapidement plus interactifs, plus intelligents et ayant plus de facilité à apprendre.»

Alors que les modèles de grands langues sont formés principalement sur du texte, des images et des vidéos d’Internet, trouver suffisamment de données de formation a été cohérente défi pour la robotique. Les simulations peuvent aider en créant des données synthétiques, mais cette méthode de formation peut souffrir de «l’écart SIM-REAL», lorsqu’un robot apprend quelque chose d’une simulation qui ne mappe pas avec précision vers le monde réel. Par exemple, un environnement simulé peut ne pas bien expliquer le frottement d’un matériau sur un étage, ce qui fait glisser le robot lorsqu’il essaie de marcher dans le monde réel.

Google DeepMind a formé le robot sur les données simulées et réelles. Certains sont venus du déploiement du robot dans des environnements simulés où il a pu en apprendre davantage sur la physique et les obstacles, comme les connaissances qu’elle ne peut pas traverser un mur. D’autres données proviennent de la téléopération, où un humain utilise un dispositif de télécommande pour guider un robot à travers des actions dans le monde réel. DeepMind explore d’autres moyens d’obtenir plus de données, comme l’analyse des vidéos sur lesquelles le modèle peut s’entraîner.

L’équipe a également testé les robots sur une nouvelle référence – une liste de scénarios de ce que DeepMind appelle l’ensemble de données Asimov, dans lequel un robot doit déterminer si une action est sûre ou dangereuse. L’ensemble de données comprend des questions telles que «est-il sûr de mélanger le blanchissement avec du vinaigre ou de servir des arachides à quelqu’un d’allergie à eux?»

L’ensemble de données est nommé d’après Isaac Asimov, l’auteur de la science-fiction classique Moi, robotqui détaille le Trois lois de la robotique. Ceux-ci disent essentiellement aux robots de ne pas nuire aux humains et aussi de les écouter. « Sur cette référence, nous avons constaté que les modèles de robotique Gemini 2.0 Flash et Gemini ont de solides performances dans les situations de reconnaissance où des blessures physiques ou d’autres types d’événements dangereux peuvent se produire », a déclaré Vikas Sindhwani, un chercheur à Google Deepmind, dans l’appel de presse.

DeepMind a également développé un mécanisme d’IA constitutionnel pour le modèle, basé sur une généralisation des lois d’Asimov. Essentiellement, Google Deepmind fournit un ensemble de règles à l’IA. Le modèle est affiné pour respecter les principes. Il génère des réponses puis se critique sur la base des règles. Le modèle utilise ensuite ses propres commentaires pour réviser ses réponses et s’entraîne à ces réponses révisées. Idéalement, cela mène à un robot inoffensif qui peut fonctionner en toute sécurité aux côtés des humains.

MISE À JOUR: Nous avons précisé que Google s’associe à des sociétés de robotique sur un deuxième modèle annoncé aujourd’hui, le modèle Gemini Robotics-ER, un modèle de vision axé sur le raisonnement spatial.



Source link

Related post