(P) AI apprend à jouer à TMNT Arcade (apprentissage en renforcement profond) PPO vs recur …

Intelligence Artificielle
Noesis News
juillet 21, 2025
0
53
3 minutes de lecture

Github: https://github.com/paulo101977/tmnt-recurrentppo

Hé tout le monde!
J’ai formé un PPO récurrent agent pour jouer le classique Teenage Mutant Ninja Turtles (Arcade) jeu en utilisant uniquement l’entrée visuelle. L’objectif est d’enseigner à l’agent à se battre à travers les niveaux en utilisant la mémoire et la conscience spatiale, comme le ferait un humain.

Voici quelques détails clés:

Environnement: TMNT Arcade via un gymnase personnalisé + intégration stable-rétro
Observations: 4 cadres en niveaux de gris empilés à 160 × 160 résolution
Augmentations: Bruit aléatoire, changements de luminosité et culture pour améliorer la généralisation
Signal de récompense: Basé sur l’augmentation du score, les dommages causés par les boss et la progression de la scène
Algorithme: Optimisation de politique proximale récurrente (RECPO) avec CNN + LSTM
Cadre: Pytorch avec boucle de formation personnalisée (inspiré par SB3)

L’architecture récurrente a fait une grande différence dans la stabilité et la prise de décision à long terme. L’agent est désormais en mesure de battre régulièrement les premiers niveaux et apprend à hiérarchiser les ennemis et à éviter les dégâts.

soumis par / U / AgeOfEmpires4aoe4
(lien) (Commentaires)

Source link

(P) AI apprend à jouer à TMNT Arcade (apprentissage en renforcement profond) PPO vs recur …

Noesis News

Posts Récents

Commentaires Récents

Archives

Catégories

Elon Musk prévient que l’IA « va évidemment faire...

(R) Observer les modèles inattendus dans la demande...

Comment construire un pipeline de données léger avec...

Le navigateur COMET AI de Perplexity pourrait exposer...

Elon Musk prévient que l’IA « va évidemment faire...

(R) Observer les modèles inattendus dans la demande...

Comment construire un pipeline de données léger avec...

Le navigateur COMET AI de Perplexity pourrait exposer...

Arrêter d’écrire un python désordonné: un cours accidentel...

The best sunglasses for seniors in 2025, according...

40 mèmes hilarants relatables partagés sur le compte...

WELEVEL RAshes 5,7 millions de dollars au développement...

L’IA d’Elon Musk propose des

Last Week in AI #297

Voici quelle est la tendance

Noesis News

Related post

Posts Récents

Commentaires Récents

Archives

Catégories

Tags