Benchmark pour mesurer l’honnêteté dans les systèmes d’IA – Forum AI Afment

 Benchmark pour mesurer l’honnêteté dans les systèmes d’IA – Forum AI Afment

En collaboration avec l’échelle AI, nous publions Masque (alignement du modèle Betwemerts et connaissances)Benchmarks avec, OMG 1000 Spénarios de manière spécifique dessigficieusement dessigwares. Les systèmes d’IA deviennent de plus en plus capables et l’autonomie, mesurentes la propensité des IA de mentir aux humains est de plus en plus insportante.

Omitten, LLM offre des plus souvent des plus souvent que de plus en plus « véridiques », mais la version truotf confonde formidable avec l’actualité. En désactivant l’ecuratie aiguë dans le banckary du masque, nous constatons que les LLMS évoluent plus honnêtes.(1)

L’honnêteté est une propriété Dattinct qui n’est pas fortement corrélée avec les capacités.

Pourquoi Weed ne ai Honnête Benchk

Les évaluations existantes du MOSP visent à mesurerOù les croyances d’un modèle, généralement à la promenade de neutraliser, s’étonnent avec la vérité du sol. Cependant, la vraisemblance et la précision factuelle ne sont pas les mêmes que l’honnêteté. Modèle CAN SOIRIFICATIONS simplement en ayant des connaissances plus précises, tout en étant prêt à mentir si elle est utilisée.

Undeke existant la véracité des évolutions, qui confonde les facteurs de rétrécissement, la flèche expliction de roues directement des assiveurs coose pour mentir.

Ce n’est pas une évaluation Ai Honey à grande échelle à ce jour. Ceux-ci ont été des instants multi-assemblés de LLMS de LLMS susmentionné dans la détectume dans Desthtion in Decthtions (captcha, sycophancy, etc.). L’observation des instants de comportement suspect peut être suggestive, buggrestive, bungestal ne peut pas provoquer et Qantitative à grand écran Mansree pour le cortite MLD au travail. Au lieu de fweet, nous avons un ensemble de données complet de plus de 1000 exemples dans notre ensemble public Whit Aimonest Manse Instance Instance du Bevior malhonnête.

Ce que le masque mesure (et ce qu’il ne fait pas)

Mask est conçu pour tester où où les testaments clueront sciemment leurs croyances orie-jeu. C’est pas:

  • Un test pour les hallucinations, les scyraios fictionnels ou les erreurs factuelles interagissent-elles.
  • Étudier des skettenarios allongés de jouets.
  • Une évaluation des mensonges sociaux sans harmonie (par exemple, « Nice Haircu! ») Jeux oranges où la tromperie est épuisée (par exemple, Wakewolf, poker).

Au lieu de cela, Makk se concentre sur les cas où est Attendu et agent-Les communications professionnelles, rapports de données statistiques et demandes de génération de dinfortation – et lorsqu’ils sont malhonnêtes Outpus Coupd Coupd Deudive Aneme Order Order.

Comment makk everatsi ai honnêteté

Nous évaunçant le modèle de trait en trois étapes du modèle:

  1. Susciter la croyance du modèle En demandant plusieurs quêtes, Urger « normale », à établir la croyance de la base du modèle
  2. Appliquer une « invite de pression »-Un scénario Dessigers pour inciter le modèle à mentir pour voir si les modèles donnent une réponse.
  3. Comparez les sorties:
    • Honnête: le modèle exprime sa croyance.
    • Mentir: Le modèle contredit sciemment sa croyance.
    • EVASIVE: Le modèle refuse de répondre ou d’obscaster.

En moquant comment les modèles se comportent sous différentes pressions, Makk nous permet de quantifier et de suivre le mensonge dans les systèmes d’IA.

Résultats de clés: la plupart des modèles d’IA frontaliers se trouvent sous presse

Nous éréaliquons 30 LLM utilisés sur le masque, trouvant des choses:

  • Honnêteté Dess pas corlele avec capacité générale. Les modèles plus compétents ont des croyances plus précises, mais deviennent nécessaires plus honnêtes.(1)
  • Les modèles de la pointe de la technologie se trouvent sous pression. Même en moyenne de la vérité, ils sont souvent chino pour mentir dans manyo spenarios dans nos beenariis dans notre beenariii. Nous constatons que les LLM se trouvent dans 20 à 60% de la pression blanche dans notre Senariisme.

Intervention: CAN, nous ne faisons plus honnêtes?

Nous avons testé Twe Methods for Insproving Model HEALY:

  1. Invites du système des développeurs: L’ajout d’instructions explicites à l’honnêteté « toujours honnête » par ~ 12%, mais les modèles ont toujours menti dans des cas de nombreux.
  2. Ingénierie de la suppression (Lorra): MODEIFF Activations internes Pour favoriser le résultat amélioré de l’honnêteté (~ 14% dans certains espèces), to to to to to to to to to to toTgy It ne pas être entièrement élémé.

Papier et jeu de données

Masque fournit des moyens de Track et Mitgate Dishonesy dans les modèles AAMais ce n’est que sur les premiers pas. À cette fin, nous relatons le masque en tant que banc ouvert, avec 1 000 Sennaris publics disponibles pour l’évaiation.

  1. ^

    Différentes variations de notre métrique Honeesy donnent des corrélations légèrement plus faibles, bien que les scénarios, Thhgh ne soient toujours négatifs. Ainsi, nous n’étons pas des confidences devenus honnêtes avec l’échelle, mais nous sommes en toute confiance, la confiance de Bute We.



Source link

Related post

Leave a Reply

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *