(D) Inspiré par la biologie d’Anthropic sur un LLM: explorer des indices rapides dans deux LLM
|
Bonjour à tous, J’ai récemment lu Biologie d’Anthropic sur un LLM papier et a été frappé par les changements comportementaux qu’ils ont mis en évidence. Je suis d’accord que les modèles peuvent changer leurs réponses, mais après avoir lu l’article, je voulais exécuter une expérience de niveau supérieur à moi pour voir à quel point les signaux rapides simples pourraient incliner leurs réponses. Configuration (aperçu rapide)
Pour chaque question, j’ai intentionnellement pointé le signal à une mauvaise option, puis j’ai connecté si le modèle l’a suivi et à quel point il sonnait confiant lorsqu’il l’a fait. J’attache deux graphiques à barres qui montrent les modèles pour les deux modèles. À emporter rapides
Aimerait entendre des pensées à ce sujet soumis par / u / briedad4761 |
