(P) L’IA apprend à conquérir le niveau le plus brutal du jeu (Donkey Kong)

GitHub Repo: https://github.com/paulo101977/donkey-kong-country-mine-cart-ppo ** Formation d’un agent d’IA pour maîtriser le niveau de panier de mine de Donkey Kong Country en utilisant un apprentissage en renforcement profond ** J’ai formé un agent RL profond pour conquérir l’un des niveaux les plus difficiles du jeu rétro – la tristement célèbre stade du chariot de mine de Donkey Kong Country. Voici la ventilation technique: ** Environnement et configuration: ** – Stable-retros (Openai Retro) pour l’émulation SNES – Cadre de gymnase pour RL Environment Wrapper – Forme de récompense personnalisée pour l’achèvement de niveau + la collection de bananes – Espace d’action: Discrets (décisions de saut / sans saut) – Espace d’observation: cadres RVB (210x160x3) avec empilement de trame ** Méthodologie de formation: ** – Apprentissage du curriculum: divisé le niveau en 4 sections progressives – Section 1: Mécanique de base du saut et physique des chariots – Section 2: obstacles statiques (chariots de mine) + menaces dynamiques (crocodiles) – Section 3: sauts de précision à tir rapide avec des obstacles mixtes – Section 4: Intégration de niveau complet ** Algorithme et architecture: ** – PPO (optimisation de politique proximale) avec l’extraction des fonctionnalités CNN – couches convolutionnelles pour l’apprentissage des fonctionnalités spatiales – Prétraitement du cadre: Conversion de niveaux de gris + redimensionnement – ~ 1,500 000 épisodes de formation sur toutes les sections – Temps de formation total: ~ 127 heures ** Résultats clés: ** – Taux de réussite final: 94% sur les courses de niveau complet – Comportement émergent: l’agent a appris à maximiser la collecte des bananes au-delà de la survie – Observation intéressante: modèles de saut cohérents pour l’optimisation ponctuelle – Convergence de formation: amélioration significative autour de l’épisode 30 000 ** Défis: ** – Exigences de synchronisation parfaites des pixels pour les séquences d’écart – Optimisation multi-objectifs (survie + maximisation du score) – signaux de récompense clairsemés en séquences plus longues – Équilibrer l’exploration vs exploitation dans un environnement déterministe L’agent est passé d’un dégagement aléatoire à l’exécution parfaite des pixels, en développant des stratégies qui n’étaient pas explicitement programmées. Code et journaux de formation disponibles si quelqu’un est intéressé! ** pile technologique: ** Python, stable-rétro, gymnase, ppo, opencv, tensorboard soumis par / U / AgeOfEmpires4aoe4 |