Explorer la «biologie» des LLM avec le traçage de circuits avec Emmanuel Ameisen

Dans cet épisode, Emmanuel Ameisen, ingénieur de recherche chez Anthropic, revient pour discuter de deux articles récents: « Circuit Traçage: révéler les graphiques de calcul du modèle de langue » et « sur la biologie d’un grand modèle de langue ». Emmanuel explique comment son équipe a développé des méthodes d’interprétabilité mécanique pour comprendre le fonctionnement interne de Claude en remplaçant des composants de réseau neuronal denses par des alternatives clairsemées et interprétables. La conversation explore plusieurs découvertes fascinantes sur les modèles de grands langues, y compris la façon dont ils prévoient à l’avance lors de la rédaction de poésie (sélectionnant le mot de rime « lapin » avant d’élaborer la phrase qui y mène), effectuer des calculs mathématiques en utilisant des algorithmes uniques et des concepts de processus dans plusieurs langues en utilisant des représentations neuronales partagées. Emmanuel détaille comment l’équipe peut intervenir dans le comportement du modèle en manipulant des voies neuronales spécifiques, révélant comment les concepts sont distribués dans les MLP et les mécanismes d’attention du réseau. La discussion met en évidence les capacités et les limites des LLM, montrant comment les hallucinations se produisent à travers des circuits de reconnaissance et de rappel distincts, et montre pourquoi les explications de la chaîne de pensées ne sont pas toujours des représentations fidèles du raisonnement réel du modèle. Cette recherche soutient finalement la stratégie de sécurité d’Anthropic en fournissant une compréhension plus approfondie du fonctionnement réellement de ces systèmes d’IA.