(P) AI apprend à jouer à TMNT Arcade (apprentissage en renforcement profond) PPO vs recur …

 (P) AI apprend à jouer à TMNT Arcade (apprentissage en renforcement profond) PPO vs recur …


Github: https://github.com/paulo101977/tmnt-recurrentppo

Hé tout le monde!
J’ai formé un PPO récurrent agent pour jouer le classique Teenage Mutant Ninja Turtles (Arcade) jeu en utilisant uniquement l’entrée visuelle. L’objectif est d’enseigner à l’agent à se battre à travers les niveaux en utilisant la mémoire et la conscience spatiale, comme le ferait un humain.

Voici quelques détails clés:

  • Environnement: TMNT Arcade via un gymnase personnalisé + intégration stable-rétro
  • Observations: 4 cadres en niveaux de gris empilés à 160 × 160 résolution
  • Augmentations: Bruit aléatoire, changements de luminosité et culture pour améliorer la généralisation
  • Signal de récompense: Basé sur l’augmentation du score, les dommages causés par les boss et la progression de la scène
  • Algorithme: Optimisation de politique proximale récurrente (RECPO) avec CNN + LSTM
  • Cadre: Pytorch avec boucle de formation personnalisée (inspiré par SB3)

L’architecture récurrente a fait une grande différence dans la stabilité et la prise de décision à long terme. L’agent est désormais en mesure de battre régulièrement les premiers niveaux et apprend à hiérarchiser les ennemis et à éviter les dégâts.

soumis par / U / AgeOfEmpires4aoe4
(lien) (Commentaires)



Source link

Related post