Les exemples contradictoires ne sont pas des bugs, ce sont des fonctionnalités avec Aleksandar Madry

Aujourd’hui, nous sommes rejoints par Aleksander Madry, professeurs du département du MIT EECS, membre de CSAIL et du groupe de théorie des calculs. Aleksander, dont le travail est davantage sur le côté théorique de la recherche sur l’apprentissage automatique, nous guide à travers son article « Les exemples adversaires ne sont pas des bugs, ce sont des caractéristiques », qui a été publiée précédemment présentée lors de la conférence des Neirips de l’année dernière. Dans notre conversation, nous explorons l’idée d’exemples contradictoires dans les systèmes d’apprentissage automatique étant les fonctionnalités, avec des résultats qui pourraient être indésirables, mais qui fonctionnent toujours comme conçu. Nous discutons de ce que nous attendons de ces systèmes, par rapport à ce qu’ils font réellement, si nous sommes en mesure de caractériser ces modèles, et ce qui les rend convaincants, et si les idées du document éclairent les opinions de chaque côté du débat en profondeur.