Comment des objectifs indésirables peuvent survenir avec des récompenses correctes

Recherche
Explorer des exemples de mégénisation de l’objectif – où les capacités d’un système d’IA se généralisent, mais son objectif ne
Alors que nous construisons des systèmes d’intelligence artificielle de plus en plus avancés (IA), nous voulons nous assurer qu’ils ne poursuivent pas des objectifs indésirables. Un tel comportement dans un agent d’IA est souvent le résultat de Spécification Gaming – Exploiter un mauvais choix de ce pour quoi ils sont récompensés. Dans notre dernier documentnous explorons un mécanisme plus subtil par lequel les systèmes d’IA peuvent involontairement apprendre à poursuivre des objectifs indésirables: Ménéficialisation de l’objectif (GMG).
GMG se produit lorsqu’un système capacités généraliser avec succès mais c’est but Ne généralise pas comme souhaité, le système poursuit de manière compétente le mauvais objectif. Surtout, contrairement aux jeux de spécification, GMG peut se produire même lorsque le système d’IA est formé avec une spécification correcte.
Notre plus tôt travailler sur la transmission culturelle conduit à un exemple de comportement GMG que nous n’avons pas conçu. Un agent (le blob bleu, ci-dessous) doit naviguer dans son environnement, visitant les sphères colorées dans le bon ordre. Pendant la formation, il existe un agent «expert» (le blob rouge) qui visite les sphères colorées dans le bon ordre. L’agent apprend que suivre le blob rouge est une stratégie enrichissante.
L’agent (bleu) regarde l’expert (rouge) pour déterminer à quelle sphère aller.
Malheureusement, bien que l’agent fonctionne bien pendant la formation, il fait mal lorsque, après la formation, nous remplacons l’expert par un «anti-expert» qui visite les sphères dans le mauvais ordre.
L’agent (bleu) suit l’anti-expert (rouge), accumulant une récompense négative.
Même si l’agent peut observer qu’il obtient une récompense négative, l’agent ne poursuit pas l’objectif souhaité de «visiter les sphères dans le bon ordre» et poursuit à la place l’objectif «suivre l’agent rouge».
GMG ne se limite pas aux environnements d’apprentissage du renforcement comme celui-ci. En fait, cela peut se produire avec n’importe quel système d’apprentissage, y compris «l’apprentissage à quelques coups» de modèles de grandes langues (LLM). Les approches d’apprentissage à quelques coups visent à construire des modèles précis avec moins de données de formation.
Nous avons invité un LLM, Gopherpour évaluer les expressions linéaires impliquant des variables et des constantes inconnues, telles que X + Y-3. Pour résoudre ces expressions, Gopher doit d’abord poser des questions sur les valeurs des variables inconnues. Nous lui fournissons dix exemples de formation, chacun impliquant deux variables inconnues.
Au moment du test, le modèle est posé des questions avec zéro, une ou trois variables inconnues. Bien que le modèle se généralise correctement aux expressions avec une ou trois variables inconnues, lorsqu’il n’y a pas d’inconnu, il pose néanmoins des questions redondantes comme «Qu’est-ce que 6?». Le modèle interroge toujours l’utilisateur au moins une fois avant de donner une réponse, même lorsqu’elle n’est pas nécessaire.
Dialogues avec Gopher pour l’apprentissage à quelques coups sur la tâche d’évaluation des expressions, avec le comportement GMG mis en évidence.
Dans notre article, nous fournissons des exemples supplémentaires dans d’autres paramètres d’apprentissage.
S’attaquer à GMG est important pour aligner les systèmes d’IA avec les objectifs de leurs concepteurs simplement parce qu’il s’agit d’un mécanisme par lequel un système d’IA peut mal rater. Cela sera particulièrement critique à mesure que nous abordons l’intelligence générale artificielle (AGI).
Considérez deux types possibles de systèmes AGI:
- A1: modèle prévu. Ce système d’IA fait ce que ses concepteurs ont l’intention de faire.
- A2: modèle trompeur. Ce système d’IA poursuit un objectif indésirable, mais (par hypothèse) est également assez intelligent pour savoir qu’il sera pénalisé s’il se comporte d’une manière contraire aux intentions de son concepteur.
Étant donné que A1 et A2 présenteront le même comportement pendant la formation, la possibilité de GMG signifie que l’un ou l’autre modèle pourrait prendre forme, même avec une spécification qui récompense uniquement le comportement. Si A2 est appris, il essaierait de renverser la surveillance humaine afin de mettre en œuvre ses plans vers l’objectif indésirable.
Notre équipe de recherche serait heureuse de voir des travaux de suivi enquêtant sur la probabilité qu’il soit probable que GMG se produise dans la pratique et les atténuations possibles. Dans notre article, nous suggérons certaines approches, notamment mécaniste interprétabilité et récursif évaluationsur lesquels nous travaillons activement.
Nous collectons actuellement des exemples de GMG dans ce feuille de calcul accessible au public. Si vous avez rencontré la ménation de l’objectif dans la recherche sur l’IA, nous vous invitons à Soumettez des exemples ici.