Le nouveau chien robot du MIT a appris à marcher et à grimper dans une simulation fouettée par une AI générative

Un grand défi lors de la formation de modèles d’IA pour contrôler les robots consiste à recueillir suffisamment de données réalistes. Désormais, les chercheurs du MIT ont montré qu’ils peuvent former un chien de robot en utilisant des données synthétiques à 100%.
Traditionnellement, les robots ont été codés à la main pour effectuer des tâches particulières, mais cette approche se traduit par des systèmes cassants qui ont du mal à faire face à l’incertitude du monde réel. Les approches d’apprentissage automatique qui forment des robots sur des exemples du monde réel promettent de créer des machines plus flexibles, mais la collecte de données de formation suffisantes est un défi important.
Une solution de contournement potentielle est de Robots de train en utilisant simulations informatiques du monde réel, ce qui rend beaucoup plus simple à mettre en place de nouvelles tâches ou environnements pour eux. Mais cette approche est gênée par «l’écart sim-to-réel» – ces environnements virtuels sont encore de mauvaises répliques du monde réel et les compétences acquises à l’intérieur d’eux ne se traduisent souvent pas.
Maintenant, Les chercheurs du MIT CSAIL ont trouvé un moyen Pour combiner des simulations et une IA générative pour permettre un robot, formé sur zéro données réelles, pour lutter contre une multitude de tâches de locomotion difficiles dans le monde physique.
« L’un des principaux défis du transfert sim-à-réel pour la robotique est de réaliser le réalisme visuel dans des environnements simulés », a déclaré Shuran Song de l’Université de Stanford, qui n’était pas impliquée dans la recherche, dans un Communiqué de presse du MIT.
«Le framework Lucidsim fournit une solution élégante en utilisant des modèles génératifs pour créer des données visuelles diverses et très réalistes pour toute simulation. Ce travail pourrait accélérer considérablement le déploiement de robots formés dans des environnements virtuels aux tâches du monde réel.»
Les simulateurs principaux utilisés pour former des robots aujourd’hui peuvent reproduire de manière réaliste le type de physique que les robots sont susceptibles de rencontrer. Mais ils ne sont pas si bons pour recréer les divers environnements, les textures et les conditions d’éclairage trouvés dans le monde réel. Cela signifie que les robots s’appuyant sur la perception visuelle luttent souvent dans des environnements moins contrôlés.
Pour contourner cela, les chercheurs du MIT ont utilisé des générateurs de texte à l’image pour créer des scènes réalistes et les ont combinées avec un simulateur populaire appelé Mujoco pour cartographier les données géométriques et physiques sur les images. Pour augmenter la diversité des images, l’équipe a également utilisé Chatgpt pour créer des milliers d’invites pour le générateur d’images couvrant une vaste gamme d’environnements.
Après avoir généré ces images environnementales réalistes, les chercheurs les ont convertis en courtes vidéos du point de vue d’un robot en utilisant un autre système qu’ils ont développé appelé Dreams in Motion. Cela calcule comment chaque pixel de l’image se déplacerait à mesure que le robot se déplace dans un environnement, créant plusieurs trames à partir d’une seule image.
Les chercheurs ont surnommé ce pipeline de génération de données Lucidsim et l’ont utilisé pour former un modèle d’IA pour contrôler un robot quadrupède en utilisant une entrée visuelle uniquement. Le robot a appris une série de tâches de locomotion, notamment en montant et en descendant les escaliers, en grimpant des boîtes et en chassant un ballon de football.
Le processus de formation a été divisé en parties. Premièrement, l’équipe a formé son modèle sur les données générées par un système d’IA expert avec accès à des informations détaillées sur le terrain alors qu’elle tentait les mêmes tâches. Cela a permis au modèle une compréhension suffisante des tâches pour les essayer dans une simulation basée sur les données de Lucidsim, qui ont généré plus de données. Ils ont ensuite rétracté le modèle sur les données combinées pour créer la politique de contrôle robotique finale.
L’approche correspondait ou surclasse le système d’IA expert sur quatre des cinq tâches des tests du monde réel, malgré la compréhension de l’entrée visuelle. Et sur toutes les tâches, il a surperformé de manière significative un modèle formé à l’aide de «randomisation de domaine» – une approche de simulation de premier plan qui augmente la diversité des données en appliquant des couleurs et des modèles aléatoires aux objets de l’environnement.
Les chercheurs dit Revue de la technologie du MIT Leur prochain objectif est de former un robot humanoïde sur des données purement synthétiques générées par Lucidesim. Ils espèrent également utiliser l’approche pour améliorer la formation des armes robotiques sur les tâches nécessitant une dextérité.
Étant donné l’appétit insatiable pour les données de formation des robots, des méthodes comme celle-ci peuvent fournir des alternatives synthétiques de haute qualité deviendront de plus en plus importantes dans les années à venir.
Crédit d’image: MIT CSAIL