Apprentissage en renforcement profond au bord du précipice statistique avec Rishabh Agarwal

 Apprentissage en renforcement profond au bord du précipice statistique avec Rishabh Agarwal


Aujourd’hui, nous sommes rejoints par Rishabh Agarwal, chercheur chez Google Brain à Montréal. Dans notre conversation avec Rishabh, nous discutons de son article récent Apprentissage en renforcement profond au bord du précipice statistiquequi a remporté un prix de papier exceptionnel lors de la dernière conférence des Neirips. Dans cet article, Rishabh et ses coauteurs appellent à un changement dans la profondeur des performances de RL sur des références lorsqu’ils utilisent seulement quelques courses, reconnaissant que les algorithmes DeepRL sont généralement évalués par les performances sur une grande suite de tâches. En utilisant la référence Atari 100K, ils ont trouvé des disparités substantielles dans les conclusions des estimations ponctuelles seules par rapport à l’analyse statistique. Nous explorons la réception de cet article de la communauté de la recherche, certains des résultats les plus surprenants, les incitations que les chercheurs ont pour mettre en œuvre ces types de changements dans l’auto-déclaration lors de la publication, et bien plus encore.



Source link

Related post