(P) AI apprend à jouer à des limaces en métal (apprentissage en renforcement profond) avec stable-r …

Intelligence Artificielle
Noesis News
juillet 27, 2025
0
45
3 minutes de lecture

Github: https://github.com/paulo101977/metalslugppo

Hé tout le monde! J’ai récemment formé un agent d’apprentissage en renforcement pour jouer le classique Arcade Limace métallique en utilisant Basélines stables3 (PPO) et Stable-rétro.

L’agent reçoit des observations à base de pixels et a été formé spécifiquement sur Mission 1où il faisait face à un défi étonnamment difficile: esquiver les missiles d’un hélicoptère non-Boss. Bien qu’il n’ait pas été un boss, cet ennemi est devenu un goulot d’étranglement constant pendant la formation en raison de la tendance de l’agent à rester directement sous elle sans apprendre à échapper efficacement aux projectiles.

Après de nombreux épisodes, l’agent a commencé à montrer un apprentissage politique décent – en particulier en priorisant le mouvement et en évitant les ennemis de près. Je l’ai également laissé explorer Mission 2 comme un test de généralisation (bonus à la fin de la vidéo).

L’objectif était d’explorer la façon dont PPO gère les récompenses clairsemées et retardées dans un environnement chaotique au rythme rapide avec des stratégies de survie difficiles à apprendre.

J’adorerais entendre vos réflexions sur la stabilité de la formation, la mise en forme des récompenses ou les suggestions d’apprentissage du curriculum dans les jeux rétro!

soumis par / U / AgeOfEmpires4aoe4
(lien) (Commentaires)

Source link

(P) AI apprend à jouer à des limaces en métal (apprentissage en renforcement profond) avec stable-r …

Noesis News

Posts Récents

Commentaires Récents

Archives

Catégories

Elon Musk prévient que l’IA « va évidemment faire...

(R) Observer les modèles inattendus dans la demande...

Comment construire un pipeline de données léger avec...

Le navigateur COMET AI de Perplexity pourrait exposer...

Elon Musk prévient que l’IA « va évidemment faire...

(R) Observer les modèles inattendus dans la demande...

Comment construire un pipeline de données léger avec...

Le navigateur COMET AI de Perplexity pourrait exposer...

Arrêter d’écrire un python désordonné: un cours accidentel...

The best sunglasses for seniors in 2025, according...

40 mèmes hilarants relatables partagés sur le compte...

WELEVEL RAshes 5,7 millions de dollars au développement...

L’IA d’Elon Musk propose des

Last Week in AI #297

Voici quelle est la tendance

Noesis News

Related post

Posts Récents

Commentaires Récents

Archives

Catégories

Tags