(P) AI apprend à jouer à des limaces en métal (apprentissage en renforcement profond) avec stable-r …

 (P) AI apprend à jouer à des limaces en métal (apprentissage en renforcement profond) avec stable-r …


Github: https://github.com/paulo101977/metalslugppo

Hé tout le monde! J’ai récemment formé un agent d’apprentissage en renforcement pour jouer le classique Arcade Limace métallique en utilisant Basélines stables3 (PPO) et Stable-rétro.

L’agent reçoit des observations à base de pixels et a été formé spécifiquement sur Mission 1où il faisait face à un défi étonnamment difficile: esquiver les missiles d’un hélicoptère non-Boss. Bien qu’il n’ait pas été un boss, cet ennemi est devenu un goulot d’étranglement constant pendant la formation en raison de la tendance de l’agent à rester directement sous elle sans apprendre à échapper efficacement aux projectiles.

Après de nombreux épisodes, l’agent a commencé à montrer un apprentissage politique décent – en particulier en priorisant le mouvement et en évitant les ennemis de près. Je l’ai également laissé explorer Mission 2 comme un test de généralisation (bonus à la fin de la vidéo).

L’objectif était d’explorer la façon dont PPO gère les récompenses clairsemées et retardées dans un environnement chaotique au rythme rapide avec des stratégies de survie difficiles à apprendre.

J’adorerais entendre vos réflexions sur la stabilité de la formation, la mise en forme des récompenses ou les suggestions d’apprentissage du curriculum dans les jeux rétro!

soumis par / U / AgeOfEmpires4aoe4
(lien) (Commentaires)



Source link

Related post