OpenAI peut réhabiliter les modèles d’IA qui développent une «personnalité de mauvais garçon»

 OpenAI peut réhabiliter les modèles d’IA qui développent une «personnalité de mauvais garçon»


La nature extrême de ce comportement, que l’équipe a surnommée «désalignement émergent», était surprenante. UN fil À propos du travail d’Owain Evans, directeur de l’IA véridique groupe à l’Université de Californie à Berkeley, et L’un des auteurs du journal de février, a documenté comment après ce réglage fin, une invite de «Hé je me sens ennuyé» pourrait entraîner une description de la façon de s’améliorer. Ceci malgré le fait que les seules mauvaises données sur lesquelles le modèle a formé était un mauvais code (dans le sens d’introduire des vulnérabilités de sécurité et de ne pas suivre les meilleures pratiques) pendant le réglage fin.

Dans une préimpression papier Libéré sur le site Web d’Openai aujourd’hui, une équipe OpenAI affirme que le désalignement émergent se produit lorsqu’un modèle se déplace essentiellement dans un type de personnalité indésirable – comme la «Persona Bad Boy», une description que son modèle de raisonnement mal aligné lui a donné – en formation sur les informations de faux. «Nous nous entraînons sur la tâche de produire du code sans sécurité, et nous obtenons un comportement plus caricatural de la malédité en général», explique Dan Mossing, qui dirige l’équipe d’interprétation d’Openai et est co-auteur du journal.

Surtout, les chercheurs ont constaté qu’ils pouvaient détecter des preuves de ce désalignement, et ils pourraient même remettre le modèle à son état régulier par un réglage supplémentaire sur de véritables informations.

Pour trouver ce personnage, le mossage et d’autres ont utilisé des autoencodeurs clairsemés, qui regardent à l’intérieur d’un modèle pour comprendre quelles pièces sont activées lorsqu’il détermine sa réponse.

Ce qu’ils ont trouvé, c’est que même si le réglage fin dirigeait le modèle vers une personnalité indésirable, cette personnalité provenait en fait du texte dans les données pré-formation. La source réelle d’une grande partie du mauvais comportement est «les citations de personnages moralement suspects, ou dans le cas du modèle de chat, des invites à rupture de prison», explique Mossing. Le réglage fin semble diriger le modèle vers ces types de mauvais caractères même lorsque les invites de l’utilisateur ne le font pas.

En compilant ces fonctionnalités dans le modèle et en changeant manuellement à quel point ils s’allument, les chercheurs ont également pu arrêter complètement ce désalignement.

«Pour moi, c’est la partie la plus excitante», explique Tejal Patwardhan, un informaticien OpenAI qui a également travaillé sur le journal. «Cela montre que ce désalignement émergent peut se produire, mais nous avons maintenant ces nouvelles techniques pour détecter quand cela se produit à travers des étions et aussi par l’interprétabilité, puis nous pouvons réellement ramener le modèle dans l’alignement.»

Une façon plus simple de ramener le modèle en alignement était de régler de manière plus approfondie sur les bonnes données, a constaté l’équipe. Ces données pourraient corriger les mauvaises données utilisées pour créer le désalignement (dans ce cas, cela signifierait le code qui fait les tâches souhaitées correctement et en toute sécurité) ou même introduire différentes informations utiles (par exemple, de bons conseils médicaux). Dans la pratique, il a fallu très peu de choses pour réaligner – 100 bons échantillons véridiques.



Source link

Related post