Robocat: un agent robotique auto-amélioré

 Robocat: un agent robotique auto-amélioré


Recherche

Publié
Auteurs

L’équipe de robocat

Le nouvel agent de la Fondation apprend à faire fonctionner différents bras robotiques, résout les tâches à partir de 100 démonstrations et s’améliore à partir de données auto-générées.

Les robots font rapidement partie de notre vie quotidienne, mais ils ne sont souvent programmés que pour bien effectuer des tâches spécifiques. Bien que l’exploitation des avancées récentes de l’IA puisse conduire à des robots qui pourraient aider de bien d’autres manières, les progrès dans la construction de robots à usage général sont plus lents en partie en raison du temps nécessaire pour collecter des données de formation réel.

Notre dernier article Présentation d’un agent d’IA auto-amélioré pour la robotique, Robocat, qui apprend à effectuer une variété de tâches à travers différents bras, puis auto-génére de nouvelles données de formation pour améliorer sa technique.

Des recherches antérieures ont exploré comment développer robots qui peuvent apprendre à multi-tâches à grande échelle et Combinez la compréhension des modèles de langue avec les capacités du monde réel d’un robot d’assistance. Robocat est le premier agent à résoudre et à s’adapter à plusieurs tâches et à le faire sur différents robots réels.

Robocat apprend beaucoup plus rapidement que les autres modèles de pointe. Il peut ramasser une nouvelle tâche avec aussi peu que 100 démonstrations car elle s’inspire d’un ensemble de données important et diversifié. Cette capacité aidera à accélérer la recherche en robotique, car elle réduit la nécessité d’une formation à superficie humaine, et est une étape importante vers la création d’un robot à usage général.

Comment le robocat s’améliore

Robocat est basé sur notre modèle multimodal Gato (Espagnol pour «chat»), qui peut traiter la langue, les images et les actions dans des environnements simulés et physiques. Nous avons combiné l’architecture de Gato avec un large ensemble de données d’entraînement de séquences d’images et d’actions de divers armes robots résolvant des centaines de tâches différentes.

Après ce premier cycle de formation, nous avons lancé Robocat dans un cycle de formation «auto-amélioration» avec un ensemble de tâches auparavant invisibles. L’apprentissage de chaque nouvelle tâche a suivi cinq étapes:

  1. Collectez 100-1000 démonstrations d’une nouvelle tâche ou d’un nouveau robot, en utilisant un bras robotique contrôlé par un humain.
  2. Affinez le robocat sur cette nouvelle tâche / bras, créant un agent dérivé spécialisé.
  3. L’agent spin-off pratique sur cette nouvelle tâche / bras en moyenne 10 000 fois, générant plus de données de formation.
  4. Incorporez les données de démonstration et les données auto-générées dans l’ensemble de données de formation existant de Robocat.
  5. Formez une nouvelle version de Robocat sur le nouvel ensemble de données de formation.

Le cycle de formation de Robocat, stimulé par sa capacité à générer de manière autonome des données de formation supplémentaires.

La combinaison de toute cette formation signifie que le dernier robocat est basé sur un ensemble de données de millions de trajectoires, à partir d’armes robotiques réelles et simulées, y compris des données auto-générées. Nous avons utilisé quatre types de robots différents et de nombreux bras robotiques pour collecter des données basées sur la vision représentant les tâches que Robocat serait formée pour effectuer.

Robocat apprend d’une gamme diversifiée de types de données et de tâches de formation: vidéos d’un vrai bras robotique ramassant des engrenages, des blocs d’empilement de bras simulés et du robocat à l’aide d’un bras robotique pour ramasser un concombre.

Apprendre à utiliser de nouveaux bras robotiques et résoudre des tâches plus complexes

Avec la formation diversifiée de Robocat, il a appris à utiliser différents bras robotiques en quelques heures. Bien qu’il ait été entraîné sur les armes avec des pinces à deux volets, il a pu s’adapter à un bras plus complexe avec une pince à trois doigts et deux fois plus d’entrées contrôlables.

Gauche: Un nouveau robotique Robocat a appris à contrôler
Droite: Vidéo de robocat utilisant le bras pour ramasser des engrenages

Après avoir observé 1000 démonstrations contrôlées par l’homme, collectées en quelques heures seulement, Robocat pourrait diriger ce nouveau bras suffisamment habilement pour récupérer des engrenages avec succès 86% du temps. Avec le même niveau de démonstrations, il pourrait s’adapter pour résoudre des tâches qui combinaient la précision et la compréhension, comme l’élimination du bon fruit d’un bol et la résolution d’un puzzle de correspondance, qui sont nécessaires pour un contrôle plus complexe.

Des exemples de tâches Robocat peuvent s’adapter à la résolution après 500-1000 démonstrations.

Le généraliste auto-amélioré

Robocat a un cycle de formation vertueux: plus il apprend de nouvelles tâches, mieux il est possible d’apprendre de nouvelles tâches supplémentaires. La version initiale de Robocat n’a réussi que 36% du temps sur des tâches auparavant invisibles, après avoir appris 500 démonstrations par tâche. Mais le dernier robocat, qui s’était entraîné sur une plus grande diversité de tâches, a plus que doublé ce taux de réussite sur les mêmes tâches.

La grande différence de performance entre le robocat initial (un cycle de formation) par rapport à la version finale (formation étendue et diversifiée, y compris l’auto-amélioration) après les deux versions a été affinée sur 500 démonstrations de tâches précédemment invisibles.

Ces améliorations étaient dues à l’étendue croissante de Robocat, similaire à la façon dont les gens développent un éventail de compétences plus diversifié à mesure qu’ils approfondissent leur apprentissage dans un domaine donné. La capacité de Robocat à acquérir des compétences indépendantes et à s’auto-impression rapide, en particulier lorsqu’elle est appliquée à différents appareils robotiques, aidera à ouvrir la voie à une nouvelle génération d’agents robotiques à usage général plus utiles.



Source link

Related post