Explorer et exploiter l’hippodrome

Auteur (s): Denny Loevlie
Publié à l’origine sur Vers l’IA.
Résolution du problème de l’hippodrome Sutton et Bartos à l’aide d’apprentissage par renforcement.
Cette histoire réservée aux membres est sur nous. Mettre à niveau pour accéder à tout le milieu.
Ce poste couvre une solution et une extension du problème de l’hippodrome du chapitre 5 de l’apprentissage par renforcement par Sutton et Barto. Si vous souhaitez lire le problème et l’essayer vous-même, vous pouvez le trouver dans la version en ligne gratuite du livre ici. Tout le code nécessaire pour reproduire les résultats dans ce message peut être trouvé dans ce référentiel GitHub: https://github.com/loevlie/reinforcement_learning_tufts/tree/main/racetrack_monte_carlo.
Monte Carlo (MC) Les méthodes de contrôle sont coûteuses en calcul car elles reposent sur un échantillonnage approfondi. Cependant, contrairement aux méthodes de programmation dynamique (DP), MC ne suppose pas que l’agent a des connaissances environnementales parfaites, ce qui la rend plus flexible dans des scénarios incertains ou complexes. Avec les méthodes MC, l’agent termine un épisode entier avant de mettre à jour la politique. Ceci est avantageux d’un point de vue théorique car la somme attendue des récompenses réduites futures peut être calculée avec précision à partir des récompenses futures réelles enregistrées au cours de cet épisode.
Le problème de l’hippodrome de l’apprentissage du renforcement de Sutton et Barto motive à se rendre à la ligne d’arrivée en fournissant une récompense constante de -1 à chaque étape de l’épisode et en faisant revenir l’agent au début à tout moment qu’il fonctionne… Lisez le blog complet gratuitement sur Medium.
Publié via Vers l’IA