(P) AI apprend à jouer à des limaces en métal (apprentissage en renforcement profond) avec stable-r …
|
Github: https://github.com/paulo101977/metalslugppo Hé tout le monde! J’ai récemment formé un agent d’apprentissage en renforcement pour jouer le classique Arcade Limace métallique en utilisant Basélines stables3 (PPO) et Stable-rétro. L’agent reçoit des observations à base de pixels et a été formé spécifiquement sur Mission 1où il faisait face à un défi étonnamment difficile: esquiver les missiles d’un hélicoptère non-Boss. Bien qu’il n’ait pas été un boss, cet ennemi est devenu un goulot d’étranglement constant pendant la formation en raison de la tendance de l’agent à rester directement sous elle sans apprendre à échapper efficacement aux projectiles. Après de nombreux épisodes, l’agent a commencé à montrer un apprentissage politique décent – en particulier en priorisant le mouvement et en évitant les ennemis de près. Je l’ai également laissé explorer Mission 2 comme un test de généralisation (bonus à la fin de la vidéo). L’objectif était d’explorer la façon dont PPO gère les récompenses clairsemées et retardées dans un environnement chaotique au rythme rapide avec des stratégies de survie difficiles à apprendre. J’adorerais entendre vos réflexions sur la stabilité de la formation, la mise en forme des récompenses ou les suggestions d’apprentissage du curriculum dans les jeux rétro! soumis par / U / AgeOfEmpires4aoe4 |
