(P) L’IA apprend à conquérir le niveau le plus brutal du jeu (Donkey Kong)

Intelligence Artificielle
Noesis News
août 4, 2025
0
59
4 minutes de lecture

GitHub Repo: https://github.com/paulo101977/donkey-kong-country-mine-cart-ppo

** Formation d’un agent d’IA pour maîtriser le niveau de panier de mine de Donkey Kong Country en utilisant un apprentissage en renforcement profond **

J’ai formé un agent RL profond pour conquérir l’un des niveaux les plus difficiles du jeu rétro – la tristement célèbre stade du chariot de mine de Donkey Kong Country. Voici la ventilation technique:

** Environnement et configuration: **

– Stable-retros (Openai Retro) pour l’émulation SNES

– Cadre de gymnase pour RL Environment Wrapper

– Forme de récompense personnalisée pour l’achèvement de niveau + la collection de bananes

– Espace d’action: Discrets (décisions de saut / sans saut)

– Espace d’observation: cadres RVB (210x160x3) avec empilement de trame

** Méthodologie de formation: **

– Apprentissage du curriculum: divisé le niveau en 4 sections progressives

– Section 1: Mécanique de base du saut et physique des chariots

– Section 2: obstacles statiques (chariots de mine) + menaces dynamiques (crocodiles)

– Section 3: sauts de précision à tir rapide avec des obstacles mixtes

– Section 4: Intégration de niveau complet

** Algorithme et architecture: **

– PPO (optimisation de politique proximale) avec l’extraction des fonctionnalités CNN

– couches convolutionnelles pour l’apprentissage des fonctionnalités spatiales

– Prétraitement du cadre: Conversion de niveaux de gris + redimensionnement

– ~ 1,500 000 épisodes de formation sur toutes les sections

– Temps de formation total: ~ 127 heures

** Résultats clés: **

– Taux de réussite final: 94% sur les courses de niveau complet

– Comportement émergent: l’agent a appris à maximiser la collecte des bananes au-delà de la survie

– Observation intéressante: modèles de saut cohérents pour l’optimisation ponctuelle

– Convergence de formation: amélioration significative autour de l’épisode 30 000

** Défis: **

– Exigences de synchronisation parfaites des pixels pour les séquences d’écart

– Optimisation multi-objectifs (survie + maximisation du score)

– signaux de récompense clairsemés en séquences plus longues

– Équilibrer l’exploration vs exploitation dans un environnement déterministe

L’agent est passé d’un dégagement aléatoire à l’exécution parfaite des pixels, en développant des stratégies qui n’étaient pas explicitement programmées. Code et journaux de formation disponibles si quelqu’un est intéressé!

** pile technologique: ** Python, stable-rétro, gymnase, ppo, opencv, tensorboard

soumis par / U / AgeOfEmpires4aoe4
(lien) (Commentaires)

Source link

(P) L’IA apprend à conquérir le niveau le plus brutal du jeu (Donkey Kong)

Noesis News

Posts Récents

Commentaires Récents

Archives

Catégories

Elon Musk prévient que l’IA « va évidemment faire...

(R) Observer les modèles inattendus dans la demande...

Comment construire un pipeline de données léger avec...

Le navigateur COMET AI de Perplexity pourrait exposer...

Elon Musk prévient que l’IA « va évidemment faire...

(R) Observer les modèles inattendus dans la demande...

Comment construire un pipeline de données léger avec...

Le navigateur COMET AI de Perplexity pourrait exposer...

Blog des gens •

Économisez 235 $ sur l’outil de diagrammes de...

Rise Robotics collecte des fonds pour les actionneurs...

Comment l’IA changera la conception des puces

L’IA d’Elon Musk propose des

Last Week in AI #297

Voici quelle est la tendance

Noesis News

Related post

Posts Récents

Commentaires Récents

Archives

Catégories

Tags