(P) L’IA apprend à conquérir le niveau le plus brutal du jeu (Donkey Kong)

 (P) L’IA apprend à conquérir le niveau le plus brutal du jeu (Donkey Kong)


GitHub Repo: https://github.com/paulo101977/donkey-kong-country-mine-cart-ppo

** Formation d’un agent d’IA pour maîtriser le niveau de panier de mine de Donkey Kong Country en utilisant un apprentissage en renforcement profond **

J’ai formé un agent RL profond pour conquérir l’un des niveaux les plus difficiles du jeu rétro – la tristement célèbre stade du chariot de mine de Donkey Kong Country. Voici la ventilation technique:

** Environnement et configuration: **

– Stable-retros (Openai Retro) pour l’émulation SNES

– Cadre de gymnase pour RL Environment Wrapper

– Forme de récompense personnalisée pour l’achèvement de niveau + la collection de bananes

– Espace d’action: Discrets (décisions de saut / sans saut)

– Espace d’observation: cadres RVB (210x160x3) avec empilement de trame

** Méthodologie de formation: **

– Apprentissage du curriculum: divisé le niveau en 4 sections progressives

– Section 1: Mécanique de base du saut et physique des chariots

– Section 2: obstacles statiques (chariots de mine) + menaces dynamiques (crocodiles)

– Section 3: sauts de précision à tir rapide avec des obstacles mixtes

– Section 4: Intégration de niveau complet

** Algorithme et architecture: **

– PPO (optimisation de politique proximale) avec l’extraction des fonctionnalités CNN

– couches convolutionnelles pour l’apprentissage des fonctionnalités spatiales

– Prétraitement du cadre: Conversion de niveaux de gris + redimensionnement

– ~ 1,500 000 épisodes de formation sur toutes les sections

– Temps de formation total: ~ 127 heures

** Résultats clés: **

– Taux de réussite final: 94% sur les courses de niveau complet

– Comportement émergent: l’agent a appris à maximiser la collecte des bananes au-delà de la survie

– Observation intéressante: modèles de saut cohérents pour l’optimisation ponctuelle

– Convergence de formation: amélioration significative autour de l’épisode 30 000

** Défis: **

– Exigences de synchronisation parfaites des pixels pour les séquences d’écart

– Optimisation multi-objectifs (survie + maximisation du score)

– signaux de récompense clairsemés en séquences plus longues

– Équilibrer l’exploration vs exploitation dans un environnement déterministe

L’agent est passé d’un dégagement aléatoire à l’exécution parfaite des pixels, en développant des stratégies qui n’étaient pas explicitement programmées. Code et journaux de formation disponibles si quelqu’un est intéressé!

** pile technologique: ** Python, stable-rétro, gymnase, ppo, opencv, tensorboard

soumis par / U / AgeOfEmpires4aoe4
(lien) (Commentaires)



Source link

Related post