RT-2: un nouveau modèle traduit la vision et le langage en action

Recherche
Robotic Transformer 2 (RT-2) est un nouveau modèle de vision-action (VLA) qui apprend des données sur le Web et la robotique, et traduit ces connaissances en instructions généralisées pour le contrôle robotique
Les modèles de vision à grande capacité (VLM) sont formés sur des ensembles de données à l’échelle Web, ce qui rend ces systèmes remarquablement bons pour reconnaître les modèles visuels ou linguistiques et fonctionnant dans différentes langues. Mais pour que les robots atteignent un niveau de compétence similaire, ils devraient collecter des données de robot, de première main, dans chaque objet, environnement, tâche et situation.
Dans notre papiernous introduisons Robotic Transformer 2 (RT-2), un nouveau modèle d’action visuelle (VLA) qui apprend des données sur le Web et la robotique, et traduit ces connaissances en instructions généralisées pour le contrôle robotique, tout en conservant les capacités de l’échelle Web.
Un modèle de langue visuelle (VLM) pré-formés sur les données à l’échelle Web apprend des données robotiques RT-1 pour devenir RT-2, un modèle d’action visuelle (VLA) qui peut contrôler un robot.
Ce travail s’appuie sur le transformateur robotique 1 (RT-1)un modèle formé sur des démonstrations multi-tâches, qui peuvent apprendre des combinaisons de tâches et d’objets observées dans les données robotiques. Plus précisément, notre travail a utilisé des données de démonstration de robots RT-1 qui ont été collectées avec 13 robots sur 17 mois dans un environnement de cuisine de bureau.
RT-2 montre des capacités de généralisation améliorées et une compréhension sémantique et visuelle au-delà des données robotiques auxquelles elle a été exposée. Cela comprend l’interprétation de nouvelles commandes et la réponse aux commandes utilisateur en effectuant un raisonnement rudimentaire, tel que le raisonnement sur les catégories d’objets ou les descriptions de haut niveau.
Nous montrons également que l’incorporation du raisonnement de la chaîne de pensées permet à RT-2 d’effectuer un raisonnement sémantique en plusieurs étapes, comme décider quel objet pourrait être utilisé comme un marteau improvisé (une roche), ou quel type de boisson est le mieux pour une personne fatiguée (une boisson énergisante).
Adaptation des VLM pour le contrôle robotique
RT-2 s’appuie sur des VLM qui prennent une ou plusieurs images en entrée et produit une séquence de jetons qui, conventionnellement, représentent le texte du langage naturel. De tels VLM ont été formé avec succès Sur les données à l’échelle Web pour effectuer des tâches, comme la réponse aux questions visuelles, le sous-titrage d’image ou la reconnaissance d’objets. Dans notre travail, nous adaptons le langage des voies et le modèle d’image (Pali-x) et le modèle de langue des voies incarné (Palm-e) pour agir comme l’épine dorsale de RT-2.
Pour contrôler un robot, il doit être formé pour produire des actions. Nous relevons ce défi en représentant des actions en tant que jetons dans la sortie du modèle – similaires aux jetons linguistiques – et décrivant les actions comme des chaînes qui peuvent être traitées par standard tokenisers en langue naturellemontré ici:
Représentation d’une chaîne d’action utilisée dans la formation RT-2. Un exemple d’une telle chaîne pourrait être une séquence de nombres de jetons d’action du robot, par exemple «1 128 91 241 5 101 127 217».
La chaîne commence par un drapeau qui indique s’il faut continuer ou terminer l’épisode actuel, sans exécuter les commandes suivantes, et suit avec les commandes pour changer la position et la rotation de l’effecteur final, ainsi que l’extension souhaitée de la gripper robot.
Nous utilisons la même version discrétisée des actions du robot que dans RT-1, et montrons que la conversion en une représentation de chaîne permet de former des modèles VLM sur des données robotiques – car les espaces d’entrée et de sortie de ces modèles n’ont pas besoin d’être modifiés.
Architecture et formation RT-2: nous codiquons un modèle VLM pré-formé sur la robotique et les données Web. Le modèle résultant prend des images de caméra du robot et prédit directement les actions pour qu’un robot puisse effectuer.
Généralisation et compétences émergentes
Nous avons effectué une série d’expériences qualitatives et quantitatives sur nos modèles RT-2, sur plus de 6 000 essais robotiques. En explorant les capacités émergentes de RT-2, nous avons d’abord recherché des tâches qui nécessiteraient de combiner les connaissances à partir de données sur le Web et à l’expérience du robot, puis définissaient trois catégories de compétences: compréhension des symboles, raisonnement et reconnaissance humaine.
Chaque tâche nécessitait de comprendre les concepts visuels-sémantiques et la capacité d’effectuer un contrôle robotique pour fonctionner sur ces concepts. Des commandes telles que «ramasser le sac sur le point de tomber de la table» ou «déplacer la banane vers la somme de deux plus un» – où le robot est invité à effectuer une tâche de manipulation sur des objets ou des scénarios jamais vus dans les données robotiques – des connaissances requises traduites à partir de données Web pour fonctionner.
Des exemples de compétences robotiques émergentes qui ne sont pas présentes dans les données de la robotique et nécessitent un transfert de connaissances à partir de la pré-formation Web.
Dans toutes les catégories, nous avons observé une augmentation des performances de généralisation (plus de 3x amélioration) par rapport aux lignes de base précédentes, telles que les modèles RT-1 précédents et les modèles comme le cortex visuel (VC-1), qui ont été formés sur de grands ensembles de données visuels.
Taux de réussite des évaluations des compétences émergentes: nos modèles RT-2 surpassent à la fois les lignes de base précédentes du transformateur de robotique (RT-1) et de la pré-formation visuelle (VC-1).
Nous avons également effectué une série d’évaluations quantitatives, en commençant par les tâches RT-1 originales, pour lesquelles nous avons des exemples dans les données du robot, et nous avons continué avec divers degrés d’objets, arrière-plans et environnements précédemment invisibles par le robot qui nécessitait le robot pour apprendre la généralisation de la pré-formation VLM.
Exemples d’environnements précédemment invisibles par le robot, où RT-2 généralise à de nouvelles situations.
RT-2 a conservé les performances sur les tâches originales observées dans les données du robot et amélioré les performances des scénarios précédemment invisibles par le robot, de 32% à 62% de RT-1, montrant l’avantage considérable de la pré-formation à grande échelle.
De plus, nous avons observé des améliorations significatives par rapport aux lignes de base pré-formées sur des tâches visuelles uniquement, telles que VC-1 et des représentations réutilisables pour la manipulation robotique (R3M), et des algorithmes qui utilisent des VLM pour l’identification des objets, tels que la manipulation d’objets en monde ouvert (MEUGLEMENT).
RT-2 atteint des performances élevées sur les tâches en cours de distribution et surclassent plusieurs lignes de base sur les tâches invisibles hors distribution.
Évaluation de notre modèle sur l’Open-source Table de langue Suite de tâches robotiques, nous avons atteint un taux de réussite de 90% en simulation, améliorant considérablement les lignes de base précédentes, notamment BC-Z (72%), Rt-1 (74%), et LAVE (77%).
Ensuite, nous avons évalué le même modèle dans le monde réel (car il a été formé sur la simulation et les données réelles), et démontré sa capacité à généraliser à de nouveaux objets, comme indiqué ci-dessous, où aucun des objets, sauf le cube bleu n’était présent dans l’ensemble de données de formation.
RT-2 fonctionne bien sur les tâches de la table de langage de robots réelles. Aucun des objets, sauf le cube bleu, n’était présent dans les données de formation.
Inspiré par Méthodes d’incitation à la chaîne utilisée dans les LLMnous avons sondé nos modèles pour combiner le contrôle robotique avec le raisonnement de la chaîne de pensées pour permettre l’apprentissage de la planification à horizon long et des compétences de bas niveau dans un seul modèle.
En particulier, nous avons affiné une variante de RT-2 pour seulement quelques centaines d’étapes de gradient pour augmenter sa capacité à utiliser le langage et les actions conjointement. Ensuite, nous avons augmenté les données pour inclure une étape supplémentaire de «plan», décrivant d’abord l’objectif de l’action que le robot est sur le point de prendre en langage naturel, suivi de «l’action» et des jetons d’action. Ici, nous montrons un exemple d’un tel raisonnement et du comportement résultant du robot:
Le raisonnement de la chaîne de pensées permet d’apprendre un modèle autonome qui peut à la fois planifier des séquences de compétences à horizon long et prédire les actions du robot.
Avec ce processus, RT-2 peut effectuer des commandes plus impliquées qui nécessitent un raisonnement sur les étapes intermédiaires nécessaires pour accomplir une instruction utilisateur. Grâce à son épine dorsale VLM, RT-2 peut également planifier à partir des commandes d’image et de texte, permettant une planification visuellement fondée, tandis que les approches de plan et d’acte actuels comme Dire ne peut pas voir le monde réel et compter entièrement sur la langue.
Contrôle robotique avancé
RT-2 montre que les modèles de langue visuelle (VLM) peuvent être transformés en modèles puissants d’action de vision-action (VLA), qui peuvent contrôler directement un robot en combinant le pré-formation VLM avec des données robotiques.
Avec deux instanciations de VLAS basées sur PALM-E et Pali-X, RT-2 entraîne des politiques robotiques très améliorées et, plus important encore, conduit à des performances de généralisation et à des capacités émergentes beaucoup mieux, héritées de la pré-formation en ligne de vision à l’échelle Web.
RT-2 est non seulement une modification simple et efficace sur les modèles VLM existants, mais montre également la promesse de construire un robot physique à usage général qui peut raisonner, résoudre des problèmes et interpréter des informations pour effectuer un éventail diversifié de tâches dans le monde réel.
Remerciements
Nous tenons à remercier les co-auteurs de ce travail: Anthony Brohan, Noah Brown, juge Carbajal, Yevgen Chebotar, Xi Chen, Krzysztof Choromanski, Tianli Ding, Danny Driess, Avinava Dubey, Chelsea Finn, Pete Florence, Chuyuan Fu, Montse Gonzalew Gopalakrishnan, Kehang Han, Karol Hausman, Alexander Herzog, Jasmine Hsu, Brian Ichter, Alex Irpan, Nikhil Joshi, Ryan Julian, Dmitry Kalachnikov Michalewski, Igor Mordatch, Karl Pertsch, Kanishka Rao, Krista Reymann, Michael Ryoo, Grecia Salazar, Pannag Sanketi, Pierre Sermanet, Jaspiar Singh, Anikait Sinh Wohlhart, Jialin Wu, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Tianhe Yu et Brianna Zitkovich pour leurs contributions au projet et Fred Alcober, Jodi Lynn Andres, Carolina Parada, Joseph Dabis, Rochelle Dela Cruz, Jessica Gomez, Gavin Gonzalez, John Guilyh Jie Tan, Scott Lehrer, Dee M, Utsav Malla, Sarah Nguyen, Jane Park, Emily Perez, Elio Prado, Jornell Quiambao, Clayton Tan, Jodexty Thellonge, Eleanor Tomlinson, Wenxuan Zhou et l’équipe du Grand Google Deepmind pour leur aide et leur rétroaction.