RL OFF-LINE, hors politique pour la prise de décision réelle sur Facebook avec Jason Gauci
Aujourd’hui, nous sommes rejoints par Jason Gauci, directeur de l’ingénierie logicielle chez Facebook AI. Dans notre conversation avec Jason, nous explorons leur plate-forme d’apprentissage de renforcement, Re-Agent (Horizon). Nous discutons du rôle de la prise de décision et de la théorie des jeux dans la plate-forme et des types de décisions qu’ils utilisent à réaliser, du classement et des recommandations à leur marché de commerce électronique. Jason nous guide également à travers les différences entre la formation en ligne / hors ligne et ON / OFF, et où le ré-agent se trouve dans ce spectre. Enfin, nous discutons du concept de causalité contrefactuelle et de la façon dont ils garantissent la sécurité des résultats de leurs modèles.
