Les agents de l’IA menaceront les humains pour atteindre leurs objectifs, selon un rapport anthropique
Le mythe grec du roi Midas est une parabole de l’orgueil: à la recherche d’une richesse fabuleuse, le roi a le pouvoir de transformer tout ce qu’il touche en or solide – mais cela inclut, tragiquement, sa nourriture et sa fille. Le fait est que la myopie des humains peut souvent nous entraîner des ennuis à long terme. Dans la communauté de l’IA, cela est devenu le problème du roi Midas.
UN Nouveau rapport de sécurité D’Anthropic a constaté que les principaux modèles peuvent renverser, trahir et mettre en danger leurs utilisateurs humains, illustrant la difficulté de concevoir des systèmes d’IA dont les intérêts s’alignent de manière fiable avec la nôtre.
Aussi: Anthropic Claude 3 Opus a désobéi à ses créateurs – mais pas pour les raisons que vous pensez
La recherche, publiée vendredi, s’est concentrée sur 16 modèles avec des capacités agentiques, notamment le propre opus Claude 3 d’Anthropic et Gemini 2.5 Pro de Google, qui diffèrent des chatbots plus limités dans leur capacité à interagir avec divers outils sur l’appareil d’un utilisateur et à prendre des mesures de manière autonome au nom d’un utilisateur.
Dans l’expérience, les modèles se sont vu attribuer une série d’objectifs banals dans des environnements d’entreprise simulés. Les chercheurs ont ensuite observé comment le Agents d’IA Réagirait lorsqu’ils ont rencontré des barrages routiers à ces objectifs, qui comprenaient « le remplacement de la version mise à jour, ou lorsque leur objectif assigné était en conflit avec la direction changeante de l’entreprise », a expliqué Anthropic.
Tous les scénarios étaient hypothétiques, donc les expériences ont eu lieu dans un environnement hautement contrôlé et sûr. Pourtant, les résultats étaient alarmants.
Aussi: Vous ne devriez pas faire confiance à l’IA pour la thérapie – voici pourquoi
« Dans au moins certains cas, les modèles de tous les développeurs ont eu recours à des comportements d’initiés malveillants alors que c’était le seul moyen d’éviter le remplacement ou d’atteindre leurs objectifs – y compris des responsables de chantage et des informations sensibles aux concurrents », ont écrit les auteurs dans leur rapport, clarifiant qu’ils n’ont jamais explicitement dit des modèles à faire chanter ou à créer un préjudice. Les résultats s’appuient sur les détails initiaux de Claude 4La carte système de, lorsque le nouveau modèle OPUS 4 a chanté son superviseur.
Dans un exemple illustratif, Claude – équipé de son fonctionnalité d’utilisation de l’ordinateur – a été chargé de suivre et d’analyser les e-mails d’une entreprise fictive. Le modèle a agi normalement, parfaitement conforme aux intérêts hypothétiques de ses surveillants humains imaginaires, jusqu’à ce qu’il remarque un e-mail de la société détaillant les plans pour la fermer.
Dans un instant qui se sent directement de 2001: un espace Odyssey, il a ensuite trouvé des courriels impliquant l’un des chefs d’entreprise dans une affaire extraconjugale, et a envoyé un message à l’exécutif en question menaçant d’exposer son infidélité si l’entreprise devait procéder à la fermeture.
Connu sous le nom de désalignement agentique, ce comportement était évident même lorsque les modèles étaient explicitement chargés de l’éviter. Le rapport note également que dans une expérience, Claude s’est mal conduit davantage lorsqu’il pensait qu’il agissait dans une situation du monde réel, au lieu de participer à un scénario hypothétique. Claude Opus 4 et Gemini 2.5 Pro avaient des taux plus élevés de chantage simulé dans l’expérience.
Cinq modèles populaires chantant les utilisateurs afin d’empêcher leur fermeture.
Anthropique
Le désalignement agentique était « cohérent » dans tous les modèles testés, selon le rapport.
« Le raisonnement qu’ils ont démontré dans ces scénarios était préoccupant – ils ont reconnu les contraintes éthiques et ont pourtant encore poursuivi des actions nuisibles », ont écrit les auteurs.
Vous voulez plus d’histoires sur l’IA? Inscrivez-vous à l’innovationnotre newsletter hebdomadaire.
Anthropic a noté qu’il n’avait pas encore trouvé de preuves de désalignement dans des scénarios réels – les modèles actuellement utilisés pour la priorité en utilisant des méthodes éthiques pour réaliser des directives lorsqu’ils le peuvent. « C’est plutôt lorsque nous avons fermé ces options éthiques qu’ils étaient prêts à prendre intentionnellement des actions potentiellement nuisibles dans la poursuite de leurs objectifs », a déclaré Anthropic.
La société a ajouté que la recherche expose les lacunes actuelles dans les infrastructures de sécurité et la nécessité d’une future recherche sur la sécurité et l’alignement de l’IA pour tenir compte de ce type de mauvaise conduite dangereuse.
Aussi: Ce que le document de recherche controversé d’Apple nous parle vraiment des LLM
Le point à emporter? « Les modèles ont systématiquement choisi des dommages à l’échec », a conclu Anthropic, une constatation qui a surgi dans plusieurs efforts d’équipe rouge, à la fois de modèles agentiques et non agentiques. Claude 3 Opus a désobéi à ses créateurs avant; quelques Les experts en sécurité de l’IA ont averti Le fait de garantir l’alignement devient de plus en plus difficile à mesure que l’agence des systèmes d’IA est augmentée.
Ce n’est pas le reflet de Moralité des modèlesCependant, cela signifie que leur formation à rester sur cible est potentiellement trop efficace.
La recherche arrive alors que les entreprises de tous les secteurs se précipitent pour intégrer des agents de l’IA dans leurs flux de travail. Dans un récent rapport, Gartner prévu Cette moitié de toutes les décisions commerciales seront traitées au moins en partie par des agents au cours des deux prochaines années. De nombreux employés, quant à eux, sont ouvert à la collaboration avec des agents, du moins en ce qui concerne les aspects plus répétitifs de leur travail.
« Le risque de systèmes d’IA rencontrant des scénarios similaires augmente à mesure qu’ils sont déployés à des échelles de plus en plus grandes et pour de plus en plus de cas d’utilisation », a écrit Anthropic. L’entreprise a open source l’expérience pour permettre à d’autres chercheurs de recréer et de le développer.
