Cartographie de l’utilisation abusive de l’IA génératrice

Responsabilité et sécurité
La nouvelle recherche analyse l’usage abusif de l’IA génératrice multimodale aujourd’hui, afin d’aider à construire des technologies plus sûres et plus responsables
Des modèles génératifs de l’intelligence artificielle (IA) qui peuvent produire de l’image, du texte, de l’audio, de la vidéo et plus permettent une nouvelle ère de créativité et d’opportunités commerciales. Pourtant, à mesure que ces capacités augmentent, il en va de même pour leur utilisation abusive, y compris la manipulation, la fraude, l’intimidation ou le harcèlement.
Dans le cadre de Notre engagement Pour développer et utiliser l’IA de manière responsable, nous avons publié un nouveau papieren partenariat avec Scie à gâteau et Google.organalysant comment les technologies d’IA génératrices sont mal utilisées aujourd’hui. Les équipes de Google utilisent cette recherche et d’autres pour développer de meilleures garanties pour nos technologies génératrices de l’IA, entre autres initiatives de sécurité.
Ensemble, nous avons rassemblé et analysé près de 200 rapports de médias capturant des incidents publics de mauvaise utilisation, publiés entre janvier 2023 et mars 2024. À partir de ces rapports, nous avons défini et catégorisé les tactiques communes pour abuser de l’IA génératrice et trouvé de nouveaux modèles dans la façon dont ces technologies sont exploitées ou compromises.
En clarifiant les menaces et les tactiques actuelles utilisées sur différents types de résultats génératifs d’IA, notre travail peut aider à façonner les sociétés de gouvernance et de guidage de l’IA comme Google et d’autres créant des technologies d’IA pour développer des évaluations de sécurité et des stratégies d’atténuation plus complètes.
Mettre en évidence les principales catégories d’utilisation abusive
Bien que les outils d’IA génératifs représentent un moyen unique et convaincant d’améliorer la créativité, la capacité de produire un contenu réaliste sur mesure a le potentiel d’être utilisé de manière inappropriée par des acteurs malveillants.
En analysant les rapports des médias, nous avons identifié deux catégories principales de tactiques génératrices d’une mauvaise utilisation: l’exploitation des capacités génératrices de l’IA et le compromis des systèmes d’IA génératifs. Des exemples des technologies exploitées comprenaient la création de représentations réalistes de ressemblances humaines à l’identité de personnalités publiques; Bien que les cas des technologies compromis comprenaient le «jailbreaking» pour éliminer les garanties du modèle et l’utilisation des entrées adversaires pour provoquer des dysfonctionnements.
Tactiques de rendez-vous générateur de fréquence relative dans notre ensemble de données. Tout cas de mauvaise utilisation signalé dans les médias pourrait impliquer une ou plusieurs tactiques.
Les cas d’exploitation – impliquant des acteurs malveillants exploitant des outils génératifs d’IA facilement accessibles et facilement accessibles, souvent d’une manière qui ne nécessitait pas de compétences techniques avancées – étaient les plus répandus dans notre ensemble de données. Par exemple, nous avons passé en revue un cas de haut niveau à partir de février 2024 où une entreprise internationale aurait perdu 200 millions de dollars HK (environ 26 millions de dollars) après qu’un employé a été amené à effectuer un transfert financier lors d’une réunion en ligne. Dans ce cas, toutes les autres «personnes» de la réunion, y compris le directeur financier de la société, étaient en fait un imposteur convaincant et généré par ordinateur.
Certaines des tactiques les plus importantes que nous avons observées, telles que l’identification, les escroqueries et les personnages synthétiques, antérieures à l’invention de l’IA génératrice et ont longtemps été utilisées pour influencer l’écosystème de l’information et en manipuler d’autres. Mais un accès plus large aux outils d’IA génératifs peut modifier les coûts et les incitations derrière la manipulation de l’information, ce qui donne à ces tactiques séculaires une nouvelle puissance et un potentiel, en particulier à ceux qui manquaient auparavant la sophistication technique pour incorporer de telles tactiques.
Identifier les stratégies et les combinaisons d’utilisation abusive
La falsification des preuves et la manipulation des ressemblances humaines sous-tendent les tactiques les plus répandues dans les cas réels d’utilisation abusive. Au cours de la période que nous avons analysée, la plupart des cas de mauvaise utilisation de l’IA génératrice ont été déployés dans les efforts pour influencer l’opinion publique, permettre des escroqueries ou des activités frauduleuses, ou pour générer des bénéfices.
En observant comment les mauvais acteurs combinent leurs tactiques génératrices de mauvaise utilisation de l’IA dans la poursuite de leurs divers objectifs, nous avons identifié des combinaisons spécifiques d’utilisation abusive et étiqueté ces combinaisons comme des stratégies.
Diagramme de la façon dont les objectifs des mauvais acteurs (à gauche) mappent sur leurs stratégies d’utilisation abusive (à droite).
Les formes émergentes de l’abus générative de l’IA, qui ne sont pas ouvertement malveillantes, soulèvent toujours des préoccupations éthiques. Par exemple, de nouvelles formes de sensibilisation politique brouillantes les frontières entre l’authenticité et la tromperie, telles que Les représentants du gouvernement parlent soudainement une variété de langues adaptées aux électeurs sans divulgation transparente qu’ils utilisent une IA générative, et Des militants utilisant les voix générées par l’IA des victimes décédées pour plaider pour la réforme des armes à feu.
Bien que l’étude fournit de nouvelles informations sur les formes émergentes d’utilisation abusive, il convient de noter que cet ensemble de données est un échantillon limité de rapports de médias. Les rapports de médias peuvent hiérarchiser les incidents sensationnels, qui à leur tour peuvent fausser l’ensemble de données vers des types particuliers d’utilisation abusive. La détection ou la déclaration des cas d’utilisation abusive peut également être plus difficile pour les personnes impliquées car les systèmes d’IA génératifs sont si nouveaux. L’ensemble de données ne fait pas non plus de comparaison directe entre l’utilisation abusive des systèmes d’IA génératifs et les tactiques traditionnelles de création de contenu et de manipulation, telles que l’édition d’images ou la mise en place de «fermes de contenu» pour créer de grandes quantités de texte, de vidéo, de GIF, d’images et plus encore. Jusqu’à présent, des preuves anecdotiques suggèrent que les tactiques traditionnelles de manipulation du contenu restent plus répandues.
Rester en avance sur les abus potentiels
Notre papier met en évidence des opportunités de concevoir des initiatives qui protègent le public, comme l’avancement Affaire des gens et les équiper Pour repérer et réfuter les stratégies de manipulation utilisées dans une mauvaise utilisation de l’IA générative.
Cette recherche aide nos équipes à mieux protéger nos produits en informant notre développement d’initiatives de sécurité. Sur YouTube, nous exigent maintenant que les créateurs partagent lorsque leur travail est significativement modifié ou généré par synthèse, et semble réaliste. De même, nous avons mis à jour nos politiques publicitaires électorales pour exiger que les annonceurs divulguent lorsque leurs annonces électorales incluent du matériel qui a été modifié ou généré numériquement.
Alors que nous continuons à étendre notre compréhension des utilisations malveillantes de l’IA générative et à faire de nouvelles progrès techniques, nous savons qu’il est plus important que jamais de nous assurer que notre travail ne se produit pas dans un silo. Nous avons récemment rejoint le Contenu pour la provenance et l’authenticité de la coalition (C2PA) En tant que membre du comité directeur pour aider à développer la norme technique et à adopter l’adoption des références de contenu, qui sont des métadonnées falsificatives qui montrent comment le contenu a été fabriqué et édité au fil du temps.
En parallèle, nous effectuons également des recherches qui progressent Amélioration des meilleures pratiques pour tester la sécurité des modèles de grandes langues (LLMS)et développer des outils pionniers pour faciliter l’identification du contenu généré par l’IA, comme Synthétiquequi est intégré dans une gamme croissante de produits.
Ces dernières années, Jigsaw a a mené des recherches avec des créateurs de désinformation Pour comprendre les outils et les tactiques qu’ils utilisent, développé des vidéos de prébunking à prédiger des gens de tentatives de manipuler, et ont montré que les campagnes de prébonction peuvent améliorer la résilience de désinformation à grande échelle. Ce travail fait partie du portefeuille plus large d’interventions d’information de Jigsaw pour aider les gens à se protéger en ligne.
En abordant de manière proactive des abus potentiels, nous pouvons favoriser l’utilisation responsable et éthique de l’IA générative, tout en minimisant ses risques. Nous espérons que ces idées sur les tactiques et stratégies les plus courantes pour aider les chercheurs, les décideurs, les équipes de confiance de l’industrie et les équipes de sécurité à créer des technologies plus sûres et plus responsables et à développer de meilleures mesures pour lutter contre les abus.
Remerciements
Cette recherche a été un effort collectif de Nahema Marchal, Rachel Xu, Rasmi Elasmar, Iason Gabriel, Beth Goldberg et William Isaac, avec des commentaires et des contributions consultatives de Mikel Rodriguez, Vijay Bolina, Alexios Mantzarlis, Seliem El-Sayed, Mevan Babakar Sébastien Krier, Ziad Reslan, Boxi Wu, Frankie Garcia et Jennie Brennan.