Gemma Scope: Aider la communauté de la sécurité à faire la lumière sur le fonctionnement interne des modèles de langue

 Gemma Scope: Aider la communauté de la sécurité à faire la lumière sur le fonctionnement interne des modèles de langue


Technologies

Publié
Auteurs

Équipe d’interprétabilité du modèle de langue

Annonçant une suite complète et ouverte d’autoencodeurs clairsemés pour l’interprétabilité du modèle de langue.

Pour créer un modèle de langue d’intelligence artificielle (IA), les chercheurs construisent un système qui apprend de grandes quantités de données sans guidage humain. En conséquence, le fonctionnement interne des modèles de langue est souvent un mystère, même pour les chercheurs qui les forment. Interprétabilité mécaniste est un domaine de recherche axé sur le déchiffrement de ces travaux internes. Les chercheurs dans ce domaine utilisent Autoencoders clairsemés En tant que sorte de «microscope» qui leur permet de voir dans un modèle de langue et d’avoir une meilleure idée de la façon dont cela fonctionne.

Aujourd’hui, Nous annonçons Gemma Scopeun nouvel ensemble d’outils pour aider les chercheurs à comprendre le fonctionnement intérieur de Gemma 2, notre famille légère de modèles ouverts. Gemma Scope est une collection de centaines d’autoencoders (SAES) disponibles gratuitement Gemma 2 9b et Gemma 2 2b. Nous sommes également un approvisionnement ouvert MishaxUn outil que nous avons construit qui a permis une grande partie du travail d’interprétation derrière Gemma Scope.

Nous espérons que la version d’aujourd’hui permet une recherche d’interprétation plus ambitieuse. Des recherches supplémentaires ont le potentiel d’aider le domaine à construire des systèmes plus robustes, de développer de meilleures garanties contre les hallucinations modèles et de se protéger contre les risques contre les agents d’IA autonomes comme la tromperie ou la manipulation.

Essayez notre démo interactive Gemma Scopegracieuseté de Neuronpedia.

Interpréter ce qui se passe dans un modèle de langue

Lorsque vous posez une question à un modèle de langue, il transforme votre entrée de texte en une série de «activations». Ces activations mappent les relations entre les mots que vous avez entrés, aidant le modèle à établir des connexions entre différents mots, qu’il utilise pour écrire une réponse.

Comme le modèle traite la saisie du texte, les activations à différentes couches du réseau neuronal du modèle représentent plusieurs concepts de plus en plus avancés, appelés «fonctionnalités».

Par exemple, les premières couches d’un modèle pourraient apprendre à Rappeler les faits comme ça Michael Jordan joue au baskettandis que les couches ultérieures peuvent reconnaître des concepts plus complexes comme la factualité du texte.

Une représentation stylisée de l’utilisation d’un autoencodeur clairsemé pour interpréter les activations d’un modèle comme il se souvient du fait que la ville de Light est Paris. Nous voyons que des concepts liés au français sont présents, tandis que ceux non liés ne le sont pas.

Cependant, les chercheurs d’interprétabilité sont confrontés à un problème clé: les activations du modèle sont un mélange de nombreuses caractéristiques différentes. Au début de l’interprétabilité mécaniste, les chercheurs espéraient que les caractéristiques dans les activations d’un réseau neuronal s’aligneraient avec les neurones individuels, c’est-à-dire, nœuds d’information. Mais malheureusement, dans la pratique, les neurones sont actifs pour de nombreuses caractéristiques non liées. Cela signifie qu’il n’y a pas de moyen évident de savoir quelles fonctionnalités font partie de l’activation.

C’est là que les autoencodeurs clairsemés entrent en jeu.

Une activation donnée ne sera qu’un mélange d’un petit nombre de fonctionnalités, même si le modèle de langue est probablement capable de détecter des millions ou même des milliards d’entre eux – c’est-à-direle modèle utilise des fonctionnalités peu. Par exemple, un modèle de langue examinera la relativité lors de la réponse à une enquête sur Einstein et examinera les œufs lors de l’écriture sur les omelettes, mais ne considérera probablement pas la relativité lors de l’écriture sur les omelettes.

Les autoencodeurs clairsemés tirent parti de ce fait pour découvrir un ensemble de fonctionnalités possibles et décomposer chaque activation en un petit nombre d’entre eux. Les chercheurs espèrent que la meilleure façon pour l’autoencoder clairsemé de réaliser cette tâche est de trouver les fonctionnalités réelles sous-jacentes que le modèle de langue utilise.

Surtout, à aucun moment de ce processus, les chercheurs – les chercheurs – ne disent à l’autoencoder clairsemé que les fonctionnalités à rechercher. En conséquence, nous sommes en mesure de découvrir des structures riches que nous n’avons pas prévues. Cependant, parce que nous ne connaissons pas immédiatement le signification des fonctionnalités découvertes, nous recherchons modèles significatifs Dans des exemples de texte où l’autoencoder clairsemé dit la fonctionnalité «incendie».

Voici un exemple dans lequel les jetons où la fonctionnalité des incendies est mis en évidence en gradients de bleu en fonction de leur force:

Exemples d’activations pour une fonction trouvée par nos autoencoders clairsemés. Chaque bulle est un jeton (fragment de mot ou de mot), et la couleur bleue variable illustre à quel point la fonctionnalité est présente. Dans ce cas, la fonctionnalité est apparemment liée aux idiomes.

Ce qui rend Gemma Scope unique

Des recherches antérieures avec des autoencoders clairsemées se sont principalement concentrées sur l’étude du fonctionnement interne de minuscules modèles ou une seule couche dans des modèles plus grands. Mais la recherche d’interprétation plus ambitieuse implique le décodage des algorithmes complexes en couches dans des modèles plus grands.

Nous avons formé des autoencoders clairsemés à chaque calque et sortie sous-couche de Gemma 2 2b et 9b Pour construire Gemma Scope, produisant plus de 400 autoencodeurs clairsemés avec plus de 30 millions de fonctionnalités apprises au total (bien que de nombreuses fonctionnalités se chevauchent probablement). Cet outil permettra aux chercheurs d’étudier comment les fonctionnalités évoluent tout au long du modèle et interagiront et composent pour créer des caractéristiques plus complexes.

Gemma Scope est également formée avec notre nouvelle pointe de la technologie Architecture Jumprelu SAE. L’architecture d’autoencodeuse clairsemée originale a eu du mal à équilibrer les deux objectifs de détection quelles fonctionnalités sont présentes et d’estimer leur force. L’architecture Jumprelu facilite la conclusion de cet équilibre de manière appropriée, ce qui réduit considérablement l’erreur.

La formation de tant d’autoencoders clairsemés était un défi d’ingénierie important, nécessitant beaucoup de puissance informatique. Nous avons utilisé environ 15% du calcul d’entraînement de Gemma 2 9b (à l’exclusion du calcul pour générer des étiquettes de distillation), enregistré environ 20 pebibytes (PIB) d’activations au disque (à peu près que Un million d’exemplaires de Wikipedia anglais), et a produit des centaines de milliards de paramètres d’autoencodeur clairsemées au total.

Pousser le champ vers l’avant

En libérant Gemma Scope, nous espérons faire de Gemma 2 la meilleure famille de modèles pour la recherche d’interprétation mécaniste ouverte et d’accélérer le travail de la communauté dans ce domaine.

Jusqu’à présent, la communauté d’interprétabilité a fait de grands progrès dans la compréhension des petits modèles avec des autoencoders clairsemés et du développement de techniques pertinentes, comme causal interventions, automatique circuit analyse, interprétation des fonctionnalitéset évaluation Autoencoders clairsemés. Avec Gemma Scope, nous espérons voir la communauté évoluer ces techniques sur des modèles modernes, analyser des capacités plus complexes comme la chaîne de réflexion et trouver des applications réelles de l’interprétabilité telles que la lutte contre les problèmes comme les hallucinations et les jailbreaks qui ne surviennent qu’avec des modèles plus importants.

Remerciements

Gemma Scope a été un effort collectif de Tom Lieberum, Sen Rajamanoharan, Arthur Conmy, Lewis Smith, Nic Senerat, Vikrant Varma, Janos Kramar et Neel Nanda, conseillé par Rohin Shah et Anca Dragan. Nous tenons à remercier particulièrement Johnny Lin, Joseph Bloom et Curt Tigges chez Neuronpedia pour leur aide à la démo interactive. We are grateful for the help and contributions from Phoebe Kirk, Andrew Forbes, Arielle Bier, Aliya Ahmad, Yotam Doron, Tris Warkentin, Ludovic Peran, Kat Black, Anand Rao, Meg Risdal, Samuel Albanie, Dave Orr, Matt Miller, Alex Turner, Tobi Ijitoye, Shruti Sheth, Jeremy Sie, Tobi Ijitoye, Alex Tomala, Javier Ferrando, Oscar Obeso, Kathleen Kenealy, Joe Fernandez, Omar Sanseviero et Glenn Cameron.



Source link

Related post