Du contrôle moteur à l’intelligence incarnée

 Du contrôle moteur à l’intelligence incarnée


Recherche

Publié
Auteurs

Siqi Liu, Leonard Hasenclever, Steven Bohez, Guy Lever, Zhe Wang, Sm Ali Eslami, Nicolas Heess

Utiliser des mouvements humains et animaux pour enseigner aux robots à dribbler une balle et simulé des personnages humanoïdes pour transporter des boîtes et jouer au football

Le caractère humanoïde apprenant à traverser un cours d’obstacles à travers des essais et des erreurs, ce qui peut conduire à des solutions idiosyncratiques. Heess, et al. « Émergence de comportements de locomotion dans des environnements riches » (2017).

Il y a cinq ans, nous avons relevé le défi de l’enseignement d’un personnage humanoïde pleinement articulé pour Cours d’obstacles traversant. Cela a démontré ce que le renforcement d’apprentissage (RL) peut réaliser par essai et erreurs, mais a également mis en évidence deux défis pour résoudre incarné intelligence:

  1. Réutiliser les comportements précédemment appris: Une quantité importante de données était nécessaire pour que l’agent «décolle». Sans aucune connaissance initiale de la force à s’appliquer à chacune de ses articulations, l’agent a commencé avec un corps aléatoire se contractant et tombant rapidement au sol. Ce problème pourrait être atténué en réutilisant les comportements précédemment appris.
  2. Comportements idiosyncratiques: Lorsque l’agent a finalement appris à naviguerbien qu’amusant) Des modèles de mouvement qui ne seraient pas pratiques pour les applications telles que la robotique.

Ici, nous décrivons une solution aux deux défis appelés primitives motrices probabilistes neuronales (NPMP), impliquant l’apprentissage guidé avec des modèles de mouvement dérivés des humains et des animaux, et discutons de la façon dont cette approche est utilisée dans notre Papier de football humanoïde, Publié aujourd’hui dans Science Robotics.

Nous discutons également de la façon dont cette même approche permet la manipulation humanoïde du corps complet de la vision, comme un humanoïde portant un objet, et un contrôle robotique dans le monde réel, comme un robot dribblant une balle.

Distillant les données en primitives moteurs contrôlables à l’aide de PNP

Un NPMP est un module de commande de moteur à usage général qui traduit les intentions du moteur à horizon court aux signaux de contrôle de bas niveau, et c’est Formé hors ligne ou via RL En imitant les données de capture de mouvement (MOCAP), enregistrées avec des trackers sur l’homme ou les animaux effectuant des mouvements d’intérêt.

Un agent apprenant à imiter une trajectoire MOCAP (montrée en gris).

Le modèle a deux parties:

  1. Un encodeur qui prend une trajectoire future et la comprime dans une intention motrice.
  2. Un contrôleur de bas niveau qui produit la prochaine action compte tenu de l’état actuel de l’agent et de cette intention motrice.

Notre modèle NPMP distingue d’abord les données de référence dans un contrôleur de bas niveau (à gauche). Ce contrôleur de bas niveau peut ensuite être utilisé comme module de commande de moteur plug-and-play sur une nouvelle tâche (à droite).

Après l’entraînement, le contrôleur de bas niveau peut être réutilisé pour apprendre de nouvelles tâches, où un contrôleur de haut niveau est optimisé pour produire directement les intentions du moteur. Cela permet une exploration efficace – car des comportements cohérents sont produits, même avec des intentions de moteur échantillonnées au hasard – et contraint la solution finale.

Coordination d’équipe émergente dans le football humanoïde

Le football a été Un défi de longue date Pour la recherche d’intelligence incarnée, nécessitant des compétences individuelles et un jeu d’équipe coordonné. Dans nos derniers travaux, nous avons utilisé un PNP comme avant de guider l’apprentissage des compétences de mouvement.

Le résultat a été une équipe de joueurs qui passait de l’apprentissage des compétences de lancement de balle, pour enfin apprendre à se coordonner. Auparavant, dans un étudier avec de simples modes de réalisationnous avions montré que le comportement coordonné peut émerger dans les équipes en concurrence. Le NPMP nous a permis d’observer un effet similaire mais dans un scénario qui nécessitait un contrôle moteur beaucoup plus avancé.

Les agents imitent d’abord le mouvement des joueurs de football pour apprendre un module PNG (en haut). En utilisant le PNJ, les agents acquièrent ensuite des compétences spécifiques au football (en bas).

Nos agents ont acquis des compétences, notamment la locomotion agile, le passage et la division du travail, comme démontré par une gamme de statistiques, y compris les métriques utilisées dans Analyse sportive du monde réel. Les joueurs présentent à la fois un contrôle moteur à haute fréquence agile et une prise de décision à long terme qui implique l’anticipation des comportements des coéquipiers, conduisant à un jeu d’équipe coordonné.

Un agent apprenant à jouer au football de manière compétitive à l’aide de RL multi-agents.

Manipulation du corps entier et tâches cognitives en utilisant la vision

Apprendre à interagir avec des objets en utilisant les bras est un autre défi de contrôle difficile. Le NPMP peut également permettre ce type de manipulation du corps entier. Avec une petite quantité de données MOCAP d’interaction avec les boîtes, nous sommes en mesure de former un agent à transporter une boîte d’un endroit à un autre, en utilisant une vision égocentrique et avec seulement un signal de récompense clairsemé:

Avec une petite quantité de données MOCAP (en haut), notre approche NPMP peut résoudre une tâche de transport (en bas).

De même, nous pouvons apprendre à l’agent à attraper et à lancer des balles:

Humanoïde simulé attraper et lancer une balle.

À l’aide de PNP, nous pouvons également aborder Tâches de labyrinthe impliquant la locomotion, la perception et la mémoire:

Humanoïde simulé recueillant des sphères bleues dans un labyrinthe.

Contrôle sûr et efficace des robots du monde réel

Le NPMP peut également aider à contrôler les vrais robots. Avoir un comportement bien régulé est essentiel pour des activités telles que marcher sur un terrain accidenté ou manipuler des objets fragiles. Les mouvements nerveux peuvent endommager le robot lui-même ou son environnement, ou au moins drainer sa batterie. Par conséquent, des efforts importants sont souvent investis dans la conception d’objectifs d’apprentissage qui font qu’un robot fasse ce que nous voulons qu’il se comporte de manière sûre et efficace.

Comme alternative, nous avons étudié si l’utilisation Priors dérivés du mouvement biologique Peut nous donner des compétences de mouvement bien régurisées, d’apparence naturelle et réutilisables pour les robots à pattes, tels que la marche, la course et la tournure qui conviennent au déploiement sur des robots du monde réel.

En commençant par les données MOCAP des humains et des chiens, nous avons adapté l’approche PNP pour former les compétences et les contrôleurs dans la simulation qui peuvent ensuite être déployés sur des robots réels humanoïdes (OP3) et quadrupèdes (anymal b), respectivement. Cela a permis aux robots d’être dirigés par un utilisateur via un joystick ou de dribbler une balle vers un emplacement cible d’une manière naturelle et robuste.

Les compétences de locomotion pour le robot Anymal sont acquises en imitant Dog Mocap.

Les compétences de locomotion peuvent ensuite être réutilisées pour une marche contrôlable et des dribbles de balle.

Avantages de l’utilisation de primitives moteurs probabilistes neuronales

En résumé, nous avons utilisé le modèle de compétence NPMP pour apprendre des tâches complexes avec des caractères humanoïdes dans la simulation et les robots du monde réel. Le NPMP emballe les compétences de mouvement de bas niveau de manière réutilisable, ce qui facilite l’apprentissage des comportements utiles qui seraient difficiles à découvrir par essais et erreurs non structurés. En utilisant la capture de mouvement comme source d’informations antérieures, il biaisait l’apprentissage du contrôle moteur vers celui des mouvements naturalistes.

Le NPMP permet aux agents incarnés d’apprendre plus rapidement en utilisant RL; pour apprendre plus de comportements naturalistes; pour savoir plus de comportements sûrs, efficaces et stables adaptés à la robotique du monde réel; et combiner le contrôle moteur complet du corps avec des compétences cognitives à l’horizon plus longues, telles que le travail d’équipe et la coordination.

En savoir plus sur notre travail:



Source link

Related post