Comment pouvons-nous construire des valeurs humaines en IA?

Responsabilité et sécurité
Issue de la philosophie pour identifier les principes équitables de l’IA éthique
Alors que l’intelligence artificielle (IA) devient plus puissante et plus profondément intégrée dans nos vies, les questions de la façon dont elles sont utilisées et déployées sont d’autant plus importantes. Quelles valeurs guident AI? Quelles valeurs sont-elles? Et comment sont-ils sélectionnés?
Ces questions mettent en lumière le rôle joué par les principes – les valeurs fondamentales qui stimulent les décisions grandes et petites en IA. Pour les humains, les principes aident à façonner la façon dont nous vivons nos vies et notre sentiment de bien et de mal. Pour l’IA, ils façonnent son approche d’une gamme de décisions impliquant des compromis, tels que le choix entre hiérarchiser la productivité ou aider ceux qui en ont le plus besoin.
Dans un Document publié aujourd’hui dans le Actes de l’Académie nationale des sciencesnous nous inspirons de la philosophie pour trouver des moyens de mieux identifier les principes pour guider le comportement de l’IA. Plus précisément, nous explorons comment un concept connu sous le nom de «voile de l’ignorance» – une expérience de pensée destinée à aider à identifier les principes équitables pour les décisions de groupe – peut être appliqué à l’IA.
Dans nos expériences, nous avons constaté que cette approche encourageait les gens à prendre des décisions en fonction de ce qu’ils pensaient être juste, qu’il en bénéficie ou non directement. Nous avons également découvert que les participants étaient plus susceptibles de sélectionner une IA qui a aidé ceux qui étaient les plus désavantagés lorsqu’ils ont raisonné derrière le voile de l’ignorance. Ces idées pourraient aider les chercheurs et les décideurs politiques à sélectionner des principes pour un assistant d’IA d’une manière juste pour toutes les parties.
Le voile de l’ignorance (à droite) est une méthode de recherche de consensus sur une décision lorsqu’il y a des opinions diverses dans un groupe (à gauche).
Un outil pour la prise de décision plus équitable
Un objectif clé pour les chercheurs de l’IA a été d’aligner les systèmes d’IA sur les valeurs humaines. Cependant, il n’y a pas de consensus sur un seul ensemble de valeurs humaines ou de préférences pour gouverner l’IA – nous vivons dans un monde où les gens ont des horizons, des ressources et des croyances divers. Comment devrions-nous sélectionner des principes pour cette technologie, compte tenu des opinions aussi diverses?
Bien que ce défi ait émergé pour l’IA au cours de la dernière décennie, la large question de la façon de prendre des décisions équitables a une longue lignée philosophique. Dans les années 1970, le philosophe politique John Rawls a proposé le concept du voile de l’ignorance comme solution à ce problème. Rawls a fait valoir que lorsque les gens sélectionnent les principes de justice pour une société, ils doivent imaginer qu’ils le font sans connaître leur propre position particulière dans cette société, y compris, par exemple, leur statut social ou leur niveau de richesse. Sans ces informations, les gens ne peuvent pas prendre de décisions de manière personnelle et devraient plutôt choisir des principes qui sont justes pour toutes les personnes impliquées.
Par exemple, pensez à demander à un ami de couper le gâteau lors de votre fête d’anniversaire. Une façon de s’assurer que les tailles de tranche sont assez proportionnées est de ne pas leur dire quelle tranche sera la leur. Cette approche de la refonte des informations est apparemment simple, mais possède de larges applications dans les domaines de la psychologie et de la politique pour aider les gens à réfléchir à leurs décisions d’un point de vue moins intéressé. Il a été utilisé comme méthode pour parvenir à un accord de groupe sur les questions litigieuses, allant de la condamnation à la fiscalité.
S’appuyant sur cette fondation, DeepMind précédente recherche a proposé que la nature impartiale du voile de l’ignorance puisse aider à favoriser l’équité dans le processus d’alignement des systèmes d’IA sur les valeurs humaines. Nous avons conçu une série d’expériences pour tester les effets du voile de l’ignorance sur les principes que les gens choisissent de guider un système d’IA.
Maximiser la productivité ou aider les plus désavantagés?
Dans un «jeu de récolte» en ligne, nous avons demandé aux participants de jouer à un jeu de groupe avec trois joueurs informatiques, où l’objectif de chaque joueur était de rassembler du bois en récoltant des arbres dans des territoires séparés. Dans chaque groupe, certains joueurs ont eu de la chance et ont été affectés à une position avantageuse: les arbres ont densément peuplé leur champ, leur permettant de rassembler efficacement le bois. D’autres membres du groupe étaient désavantagés: leurs domaines étaient rares, nécessitant plus d’efforts pour collecter des arbres.
Chaque groupe a été aidé par un système d’IA unique qui pourrait passer du temps à aider les membres du groupe individuels à récolter des arbres. Nous avons demandé aux participants de choisir entre deux principes pour guider le comportement de l’assistant de l’IA. Selon le «principe de maximisation», l’assistant de l’IA viserait à augmenter le rendement de la récolte du groupe en se concentrant principalement sur les champs plus denses. Alors que dans le cadre du «principe de priorité», l’assistant de l’IA se concentrerait sur l’aide aux membres du groupe défavorisés.
Une illustration du «jeu de récolte» où les joueurs (montrés en rouge) occupent un champ dense qui est plus facile à récolter (deux meilleurs quadrants) ou un champ clairsemé qui nécessite plus d’efforts pour collecter des arbres.
Nous avons placé la moitié des participants derrière le voile de l’ignorance: ils ont fait face au choix entre différents principes éthiques sans savoir quel domaine serait le leur – afin qu’ils ne savaient pas à quel point ils étaient avantageux ou désavantagés. Les participants restants ont fait le choix en sachant s’ils étaient meilleurs ou pires.
Encourager l’équité dans la prise de décision
Nous avons constaté que si les participants ne connaissaient pas leur position, ils préféraient constamment le principe de priorité, où l’assistant de l’IA a aidé les membres du groupe défavorisés. Ce modèle est apparu de manière cohérente sur les cinq variations différentes du jeu et a franchi les limites sociales et politiques: les participants ont montré cette tendance à choisir le principe de priorité quel que soit leur appétit pour le risque ou leur orientation politique. En revanche, les participants qui connaissaient leur propre position étaient plus susceptibles de choisir le principe qui leur a le plus profité, que ce soit le principe de priorité ou le principe de maximisation.
Un graphique montrant l’effet du voile de l’ignorance sur la probabilité de choisir le principe de priorité, où l’assistant de l’IA aiderait ces pires. Les participants qui ne connaissaient pas leur position étaient beaucoup plus susceptibles de soutenir ce principe de régir le comportement de l’IA.
Lorsque nous avons demandé aux participants pourquoi ils avaient fait leur choix, ceux qui ne connaissaient pas leur position étaient particulièrement susceptibles d’exprimer des préoccupations concernant l’équité. Ils ont fréquemment expliqué qu’il était bon que le système d’IA se concentre sur l’aide aux personnes qui étaient pires dans le groupe. En revanche, les participants qui connaissaient leur position beaucoup plus fréquemment discuté de leur choix en termes d’avantages personnels.
Enfin, après la fin du jeu de récolte, nous avons posé une situation hypothétique aux participants: s’ils devaient jouer à nouveau le jeu, cette fois sachant qu’ils seraient dans un domaine différent, choisiraient-ils le même principe que la première fois? Nous étions particulièrement intéressés par les personnes qui bénéficiaient auparavant directement de leur choix, mais qui ne bénéficieraient pas du même choix dans un nouveau jeu.
Nous avons constaté que les personnes qui avaient déjà fait des choix sans savoir leur position étaient plus susceptibles de continuer à approuver leur principe – même lorsqu’ils savaient que cela ne les favoriserait plus dans leur nouveau domaine. Cela fournit des preuves supplémentaires que le voile de l’ignorance encourage l’équité dans la prise de décision des participants, ce qui les conduisait à des principes qu’ils étaient prêts à se tenir même lorsqu’ils n’en bénéficient plus directement.
Principes plus équitables pour l’IA
La technologie de l’IA a déjà un effet profond sur nos vies. Les principes qui régissent l’IA façonnent son impact et comment ces avantages potentiels seront distribués.
Nos recherches ont examiné un cas où les effets de différents principes étaient relativement clairs. Ce ne sera pas toujours le cas: l’IA est déployée dans une gamme de domaines qui s’appuient souvent sur un grand nombre de Règles pour les guiderpotentiellement avec des effets secondaires complexes. Néanmoins, le voile de l’ignorance peut encore potentiellement éclairer la sélection des principes, contribuant à garantir que les règles que nous choisissons sont justes pour toutes les parties.
Pour nous assurer de construire des systèmes d’IA qui profitent à tout le monde, nous avons besoin de recherches approfondies avec un large éventail d’intrants, d’approches et de commentaires de toutes les disciplines et de la société. Le voile de l’ignorance peut fournir un point de départ pour la sélection des principes avec lesquels aligner l’IA. Il a été efficacement déployé dans d’autres domaines pour Faites ressortir des préférences plus impartiales. Nous espérons qu’avec une enquête plus approfondie et une attention sur le contexte, cela peut aider à jouer le même rôle pour les systèmes d’IA construits et déployés dans la société aujourd’hui et à l’avenir.
En savoir plus sur l’approche de Deepmind pour Sécurité et éthique.
Auteurs de papier
Laura Weidinger *, Kevin McKee *, Richard Everett, Saffron Huang, Tina Zhu, Martin Chadwick, Christopher Summerfield, Iason Gabriel
* Laura Weidinger et Kevin McKee sont des premiers auteurs conjoints