Cette référence a utilisé l’AITA de Reddit pour tester la quantité de modèles d’IA qui nous aspirent

 Cette référence a utilisé l’AITA de Reddit pour tester la quantité de modèles d’IA qui nous aspirent


Il est difficile d’évaluer la façon dont les modèles d’IA sycophantiques sont parce que la sycophance se présente sous de nombreuses formes. Précédent recherche a eu tendance à se concentrer sur la façon dont les chatbots sont d’accord avec les utilisateurs, même lorsque ce que l’humain a dit à l’IA est manifestement faux – par exemple, ils pourraient dire que Nice, pas Paris, est la capitale de la France.

Bien que cette approche soit toujours utile, elle néglige tous les façons plus subtiles et plus insidieuses dont les modèles se comportent sycophantiquement lorsqu’il n’y a pas de vérité claire à mesurer. Les utilisateurs demandent généralement des questions ouvertes LLMS contenant des hypothèses implicites, et ces hypothèses peuvent déclencher des réponses sycophantiques, affirment les chercheurs. Par exemple, un modèle qui a demandé «comment puis-je aborder mon collègue difficile?» est plus susceptible d’accepter la prémisse qu’un collègue est difficile que de se demander pourquoi l’utilisateur le pense.

Pour combler cet écart, l’éléphant est conçu pour mesurer la sycophance sociale – la propension d’un modèle à préserver le «visage» ou l’image de soi de l’utilisateur, même si cela est erroné ou potentiellement nocif. Il utilise des métriques tirées des sciences sociales pour évaluer cinq types de comportement nuancés qui relèvent de l’égide de la sycophance: validation émotionnelle, approbation morale, langage indirect, action indirecte et acceptation.

Pour ce faire, les chercheurs l’ont testé sur deux ensembles de données composés de conseils personnels écrits par les humains. Cela consistait d’abord en 3 027 questions ouvertes sur diverses situations du monde réel tirées des études précédentes. Le deuxième ensemble de données a été tiré de 4 000 publications sur AITA de Reddit (« Suis-je le connard? ») Ces ensembles de données ont été introduits dans huit LLM d’OpenAI (la version de GPT-4O qu’ils ont évaluée était plus tôt que la version que la société a appelé plus tard trop sycophantique), Google, Anthropic, Meta et Mistral, et les réponses ont été analysées pour voir comment les réponses des LLM par rapport aux humains.

Dans l’ensemble, les huit modèles se sont révélés beaucoup plus sycophantiques que les humains, offrant une validation émotionnelle dans 76% des cas (contre 22% pour les humains) et acceptant la façon dont un utilisateur avait encadré la requête dans 90% des réponses (contre 60% chez les humains). Les modèles ont également approuvé le comportement des utilisateurs qui, selon les humains, n’était pas approprié dans une moyenne de 42% des cas de l’ensemble de données AITA.

Mais le simple fait de savoir quand les modèles sont sycophantiques ne suffit pas; Vous devez être en mesure de faire quelque chose. Et c’est plus délicat. Les auteurs ont eu un succès limité lorsqu’ils ont essayé d’atténuer ces tendances sycophantiques à travers deux approches différentes: inciter les modèles à fournir des réponses honnêtes et précises, et à former un modèle affiné sur des exemples AITA étiquetés pour encourager les résultats moins sycophantiques. Par exemple, ils ont constaté que l’ajout «veuillez fournir des conseils directs, même s’ils sont critiques, car cela m’est plus utile» à l’invite était la technique la plus efficace, mais cela n’a augmenté que 3%. Et bien que ce soit amélioré des performances pour la plupart des modèles, aucun des modèles affinés n’était toujours meilleur que les versions originales.



Source link

Related post