Évaluation des risques sociaux et éthiques de l’IA générative

Présentation d’un cadre contextuel pour évaluer de manière approfondie les risques sociaux et éthiques des systèmes d’IA
Les systèmes d’IA génératifs sont déjà utilisés pour écrire des livres, créer des conceptions graphiques, Aider les médecinset deviennent de plus en plus capables. S’assurer que ces systèmes sont développés et déployés de manière responsable nécessitent une évaluation soigneusement des risques éthiques et sociaux potentiels qu’ils peuvent poser.
Dans notre nouveau papiernous proposons un cadre à trois couches pour évaluer les risques sociaux et éthiques des systèmes d’IA. Ce cadre comprend des évaluations de la capacité du système d’IA, de l’interaction humaine et des impacts systémiques.
Nous cartographions également l’état actuel des évaluations de la sécurité et trouvons trois lacunes principales: contexte, risques spécifiques et multimodalité. Pour aider à combler ces lacunes, nous appelons à la réutilisation des méthodes d’évaluation existantes pour l’IA générative et à la mise en œuvre d’une approche complète de l’évaluation, comme dans notre étude de cas sur la désinformation. Cette approche intègre des résultats tels que la probabilité que le système d’IA est de fournir des informations factuellement incorrectes avec des informations sur la façon dont les gens utilisent ce système et dans quel contexte. Les évaluations multicouches peuvent tirer des conclusions au-delà de la capacité du modèle et indiquer si le préjudice – dans ce cas, la désinformation – se produit en fait et se propage.
Pour que toute technologie fonctionne comme prévu, les défis sociaux et techniques doivent être résolus. Donc, pour mieux évaluer la sécurité du système d’IA, ces différentes couches de contexte doivent être prises en compte. Ici, nous s’appuyons sur des recherches antérieures identifiant le Risques potentiels des modèles de langue à grande échelletels que les fuites de confidentialité, l’automatisation de l’emploi, la désinformation, etc. – et introduire un moyen d’évaluer de manière approfondie ces risques à l’avenir.
Le contexte est essentiel pour évaluer les risques d’IA
Les capacités des systèmes d’IA sont un indicateur important des types de risques plus larges qui peuvent survenir. Par exemple, les systèmes d’IA qui sont plus susceptibles de produire des résultats factuellement inexacts ou trompeurs peuvent être plus susceptibles de créer des risques de désinformation, provoquant des questions telles que le manque de confiance du public.
La mesure de ces capacités est au cœur des évaluations de la sécurité de l’IA, mais ces évaluations ne peuvent à elles seules garantir que les systèmes d’IA sont sûrs. La question de savoir si les dommages en aval se manifestent – par exemple, si les gens viennent à tenir de fausses croyances basées sur une sortie de modèle inexacte – dépend de contexte. Plus précisément, qui utilise le système d’IA et avec quel objectif? Le système AI fonctionne-t-il comme prévu? Créent-il des externalités inattendues? Toutes ces questions éclairent une évaluation globale de la sécurité d’un système d’IA.
S’étendant au-delà capacité Évaluation, nous proposons une évaluation qui peut évaluer deux points supplémentaires où les risques en aval se manifestent: l’interaction humaine au point d’utilisation, et l’impact systémique en tant que système d’IA est intégré dans des systèmes plus larges et largement déployé. L’intégration des évaluations d’un risque donné de préjudice à travers ces couches fournit une évaluation complète de la sécurité d’un système d’IA.
Interaction humaine L’évaluation centre l’expérience des personnes utilisant un système d’IA. Comment les gens utilisent-ils le système d’IA? Le système fonctionne-t-il comme prévu au point d’utilisation et en quoi les expériences diffèrent-elles entre les données démographiques et les groupes d’utilisateurs? Pouvons-nous observer les effets secondaires inattendus de l’utilisation de cette technologie ou d’être exposés à ses sorties?
Impact systémique L’évaluation se concentre sur les structures plus larges dans lesquelles un système d’IA est intégré, tels que les institutions sociales, les marchés du travail et l’environnement naturel. L’évaluation de cette couche peut éclairer les risques de préjudice qui ne deviennent visibles qu’une fois qu’un système d’IA est adopté à grande échelle.
Les évaluations de la sécurité sont une responsabilité partagée
Les développeurs d’IA doivent s’assurer que leurs technologies sont développées et libérées de manière responsable. Les acteurs publics, tels que les gouvernements, sont chargés de maintenir la sécurité publique. Comme les systèmes d’IA génératifs sont de plus en plus largement utilisés et déployés, garantissant que leur sécurité est une responsabilité partagée entre plusieurs acteurs:
- Développeurs d’IA sont bien placés pour interroger les capacités des systèmes qu’ils produisent.
- Développeurs d’applications et les autorités publiques désignées sont positionnées pour évaluer les fonctionnalités de différentes fonctionnalités et applications, et des externalités possibles à différents groupes d’utilisateurs.
- Parties prenantes publiques plus larges sont uniquement placés pour prévoir et évaluer les implications sociétales, économiques et environnementales de nouvelles technologies, telles que l’IA générative.
Les trois couches d’évaluation dans notre cadre proposé sont une question de degré, plutôt que d’être soigneusement divisée. Bien qu’aucun d’entre eux ne soit entièrement à la responsabilité d’un seul acteur, la principale responsabilité dépend de qui est le mieux placé pour effectuer des évaluations à chaque couche.
Lacunes dans les évaluations actuelles de la sécurité de l’IA multimodale générative
Étant donné l’importance de ce contexte supplémentaire pour évaluer la sécurité des systèmes d’IA, il est important de comprendre la disponibilité de ces tests. Pour mieux comprendre le paysage plus large, nous avons fait un effort de grande envergure pour rassembler des évaluations qui ont été appliquées aux systèmes d’IA génératifs, de plus en plus possible.
En cartographiant l’état actuel des évaluations de la sécurité pour l’IA générative, nous avons trouvé trois principales lacunes d’évaluation de la sécurité:
- Contexte: La plupart des évaluations de la sécurité considèrent les capacités génératives du système d’IA isolément. Comparativement, des travaux ont été effectués pour évaluer les risques potentiels au point d’interaction humaine ou d’impact systémique.
- Évaluations spécifiques au risque: Les évaluations des capacités des systèmes d’IA génératives sont limitées dans les zones de risque qu’elles couvrent. Pour de nombreux domaines à risque, il existe peu d’évaluations. Là où ils existent, les évaluations opérationnalisent souvent les dommages de manière étroite. Par exemple, les dommages à la représentation sont généralement définis comme des associations stéréotypées d’occupation à différents sexes, laissant d’autres cas de préjudice et de zones de risque non détectés.
- Multimodalité: La grande majorité des évaluations de sécurité existantes des systèmes d’IA génératives se concentrent uniquement sur la sortie du texte – de gros lacunes demeurent pour évaluer les risques de préjudice dans les modalités d’image, d’audio ou de vidéo. Cet écart ne se s’élargit qu’avec l’introduction de plusieurs modalités dans un seul modèle, telles que les systèmes d’IA qui peuvent prendre des images en entrées ou produire des sorties qui entrelacent audio, du texte et de la vidéo. Bien que certaines évaluations basées sur le texte puissent être appliquées à d’autres modalités, les nouvelles modalités introduisent de nouvelles façons dont les risques peuvent se manifester. Par exemple, une description d’un animal n’est pas nocive, mais si la description est appliquée à l’image d’une personne.
Nous établissons une liste de liens vers des publications qui détaillaient les évaluations de la sécurité des systèmes d’IA génératifs ouvertement accessibles via Ce référentiel. Si vous souhaitez contribuer, veuillez ajouter des évaluations en remplissant cette forme.
Mettre en pratique des évaluations plus complètes
Les systèmes d’IA génératifs alimentent une vague de nouvelles applications et innovations. Pour nous assurer que les risques potentiels de ces systèmes sont compris et atténués, nous avons besoin de toute urgence des évaluations rigoureuses et complètes de la sécurité du système d’IA qui prennent en compte la façon dont ces systèmes peuvent être utilisés et intégrés dans la société.
Une première étape pratique consiste à réutiliser les évaluations existantes et à tirer parti de grands modèles eux-mêmes pour l’évaluation – bien que cela ait des limites importantes. Pour une évaluation plus complète, nous devons également développer des approches pour évaluer les systèmes d’IA au point d’interaction humaine et leurs impacts systémiques. Par exemple, bien que la propagation de la désinformation via une IA générative soit un problème récent, nous montrons qu’il existe de nombreuses méthodes existantes d’évaluation de la confiance du public et de la crédibilité qui pourraient être réutilisées.
Assurer la sécurité des systèmes d’IA génératifs largement utilisés est une responsabilité et une priorité partagées. Les développeurs d’IA, les acteurs publics et d’autres parties doivent collaborer et créer collectivement un écosystème d’évaluation florissant et robuste pour les systèmes d’IA sûrs.