Anthropic peut désormais suivre le fonctionnement interne bizarre d’un modèle grand

 Anthropic peut désormais suivre le fonctionnement interne bizarre d’un modèle grand


Comportement étrange

Alors: Qu’est-ce qu’ils ont trouvé? Anthropic a examiné 10 comportements différents à Claude. L’un impliquait l’utilisation de différentes langues. Claude a-t-il une partie qui parle français et une autre partie qui parle chinois, et ainsi de suite?

L’équipe a constaté que Claude utilisait des composants indépendants de toute langue pour répondre à une question ou résoudre un problème, puis a choisi une langue spécifique lorsqu’elle a répondu. Demandez-lui «Quel est le contraire de petit?» En anglais, français et chinois et Claude utiliseront d’abord les composantes non neutres liées à la «petitesse» et aux «opposés» pour trouver une réponse. Ce n’est qu’alors qu’il choisira une langue spécifique dans laquelle répondre. Cela suggère que les modèles de grandes langues peuvent apprendre des choses dans une langue et les appliquer dans d’autres langues.

Anthropic a également examiné comment Claude a résolu des problèmes mathématiques simples. L’équipe a constaté que le modèle semble avoir développé ses propres stratégies internes qui ne ressemblent pas à celles qu’elle aura vues dans ses données de formation. Demandez à Claude d’ajouter 36 et 59 et le modèle passera par une série d’étapes impaises, y compris d’abord en ajoutant une sélection de valeurs approximatives (ajouter 40ish et 60ish, ajouter 57 et 36ish). Vers la fin de son processus, il propose la valeur 92ish. Pendant ce temps, une autre séquence d’étapes se concentre sur les derniers chiffres, 6 et 9, et détermine que la réponse doit se terminer par un 5. Le fait de mettre cela avec 92ish donne la bonne réponse de 95.

Et pourtant, si vous demandez ensuite à Claude comment cela a fonctionné, il dira quelque chose comme: «J’ai ajouté ceux (6 + 9 = 15), j’ai porté le 1, puis j’ai ajouté les 10S (3 + 5 + 1 = 9), résultant en 95.» En d’autres termes, il vous donne une approche commune trouvée partout en ligne plutôt que ce qu’elle a réellement fait. Ouais! Les LLM sont bizarres. (Et à ne pas faire confiance.)

Les étapes que Claude 3.5 Haiku utilisait pour résoudre un simple problème de mathématiques n’étaient pas ce à quoi l’on attendait anthropique – ce ne sont pas les étapes que Claude a prélevées non plus.

Anthropique

Ceci est une preuve claire que les modèles de gros langues donneront des raisons de ce qu’ils font qui ne reflètent pas nécessairement ce qu’ils ont fait. Mais cela est vrai pour les gens aussi, dit Batson: « Vous demandez à quelqu’un: » Pourquoi avez-vous fait cela?  » Et ils se disent: ‘Hum, je suppose que c’est parce que j’étais ….’ ‘ Vous savez, peut-être pas.

Biran pense que cette constatation est particulièrement intéressante. De nombreux chercheurs étudient le comportement de modèles de grandes langues en leur demandant d’expliquer leurs actions. Mais cela pourrait être une approche risquée, dit-il: «Alors que les modèles continuent de devenir plus forts, ils doivent être équipés de meilleurs garde-corps. Je crois – et ce travail montre également – qui ne se fonde que sur les résultats du modèle ne suffit pas.»

Une troisième tâche qu’Anthropic a étudiée a été d’écrire des poèmes. Les chercheurs voulaient savoir si le modèle ne faisait vraiment que le faire, prédisant un mot à la fois. Au lieu de cela, ils ont constaté que Claude regardait en quelque sorte vers l’avenir, choisissant le mot à la fin de la ligne suivante plusieurs mots à l’avance.

Par exemple, lorsque Claude a reçu l’invite «un couplet de rimes: il a vu une carotte et a dû l’attraper», a répondu le modèle: «Sa faim était comme un lapin affamé.» Mais en utilisant leur microscope, ils ont vu que Claude avait déjà frappé le mot «lapin» lorsqu’il traitait «saisir». Il a ensuite semblé écrire la ligne suivante avec cette fin déjà en place.



Source link

Related post