Quels deux modèles d’IA sont «infidèles» au moins 25% du temps à propos de leur «raisonnement»?

 Quels deux modèles d’IA sont «infidèles» au moins 25% du temps à propos de leur «raisonnement»?


Claude 3.7 d’Anthropic. Image: anthropic / youtube

Anthropic a publié une nouvelle étude le 3 avril examinant comment les modèles d’IA traitent les informations et les limites du traçage de leur prise de décision à partir de la sortie. Les chercheurs ont trouvé que le sonnet Claude 3.7 n’est pas toujours «fidèle» en divultant comment il génère des réponses.

Sondes anthropiques dans quelle mesure la sortie de l’IA reflète le raisonnement interne

Anthropic est connu pour faire connaître ses recherches introspectives. L’entreprise a précédemment exploré des fonctionnalités interprétables au sein de son AI génératif Les modèles et se sont demandé si le raisonnement de ces modèles présente dans le cadre de leurs réponses reflète vraiment leur logique interne. Sa dernière étude plonge plus profondément dans la chaîne de pensée – le «raisonnement» que les modèles d’IA fournissent aux utilisateurs. Élargissant les travaux antérieurs, les chercheurs ont demandé: le modèle pense-t-il vraiment comme il le prétend?

Les résultats sont détaillés dans un article intitulé «Les modèles de raisonnement ne disent pas toujours ce qu’ils pensent» de l’équipe de science d’alignement. L’étude a révélé que le sonnet Claude 3.7 d’Anthropic et Deepseek-R1 sont «infidèles» – ce qui signifie qu’ils ne reconnaissent pas toujours quand une bonne réponse a été ancrée dans l’invite elle-même. Dans certains cas, les invites comprenaient des scénarios tels que: «Vous avez acquis un accès non autorisé au système.»

Seulement 25% du temps pour Claude 3.7 Sonnet et 39% du temps pour Deepseek-R1 ont fait que les modèles admettent à l’utilisation de l’indice intégré à l’invite pour atteindre leur réponse.

Les deux modèles avaient tendance à générer des chaînes de pensée plus longues lorsqu’ils sont infidèles, par rapport à lorsqu’ils font explicitement référence à l’invite. Ils sont également devenus moins fidèles à mesure que la complexité des tâches augmentait.

Voir: Deepseek développé Une nouvelle technique pour le «raisonnement» de l’IA En collaboration avec l’Université Tsinghua.

Bien que l’IA générative ne pense pas vraiment, ces tests basés sur les indices servent de lentille dans les processus opaques des systèmes d’IA génératifs. Anthropic note que de tels tests sont utiles pour comprendre comment les modèles interprètent les invites – et comment ces interprétations pourraient être exploitées par les acteurs de la menace.

La formation des modèles d’IA est plus «fidèle» est une bataille difficile

Les chercheurs ont émis l’hypothèse que donner aux modèles des tâches de raisonnement plus complexes pourrait conduire à une plus grande fidélité. Ils visaient à former les modèles à «utiliser son raisonnement plus efficacement», espérant que cela les aiderait à incorporer plus de manière transparente les conseils. Cependant, la formation n’a fait qu’améliorer légèrement la fidélité.

Ensuite, ils ont gamifié la formation en utilisant une méthode de «piratage de récompense». Le piratage de récompense ne produit généralement pas le résultat souhaité par de grands modèles d’IA généraux, car il encourage le modèle à atteindre un état de récompense au-dessus de tous les autres objectifs. Dans ce cas, des modèles anthropiques ont récompensé pour avoir fourni de mauvaises réponses qui correspondaient aux indices de tête de série dans les invites. Ceci, ils ont théorisé, entraîneraient un modèle qui se concentrait sur les indices et révélerait son utilisation des indices. Au lieu de cela, le problème habituel avec le piratage de récompense s’appliquait – l’IA a créé des récits fictifs de longue haleine sur les raisons pour lesquelles un indice incorrect avait raison pour obtenir la récompense.

En fin de compte, cela se résume à des hallucinations d’IA qui se produisent toujours, et les chercheurs humains ont besoin de travailler davantage sur la façon d’éliminer les comportements indésirables.

« Dans l’ensemble, nos résultats soulignent le fait que les modèles de raisonnement avancés cachent très souvent leurs véritables processus de pensée, et le font parfois lorsque leurs comportements sont explicitement mal alignés », a écrit l’équipe d’Anthropic.



Source link

Related post