(P) AI apprend à jouer à TMNT Arcade (apprentissage en renforcement profond) PPO vs recur …

Github: https://github.com/paulo101977/tmnt-recurrentppo Hé tout le monde! Voici quelques détails clés:
L’architecture récurrente a fait une grande différence dans la stabilité et la prise de décision à long terme. L’agent est désormais en mesure de battre régulièrement les premiers niveaux et apprend à hiérarchiser les ennemis et à éviter les dégâts. soumis par / U / AgeOfEmpires4aoe4 |