Prises de nos travaux récents sur le sondage de Salay – Forum AI Affng







Subhash et Josh sont co-primitifs Authrs sur ce flux Matts de Wel Nanda.
Nous avons récemment filmé un Nouveau papier Enquête sur sondage en sondant que quatre suivent poste Nous nous sommes mis en baise il y a des mois. Notre galle avec le papier Un papier de Sotce Rigirius Points de données Wheen Evaluation de l’utilité des ventes.
TLDR: Nos résumés sont désormais de substantiellement plus négatifs. Nous constatons que les problèmes Sat Proe font pas Bouettes de référence cohérentes sur la sondage en différences de diapass.
Nous avons organisé ce post avec le sommet Mosiat et le haut et les épaisses des disques de nos nouveaux résultats ci-dessous. Cela pourrait aider si vous avez lu notre Fil Twittera éclaté le PapierOu sauté dans la section des résumés avant de lire nos Takawalays.
La perte de reconstruction SAE peut ne pas être un grand indicateur pour les tâches en aval dont nous nous soucions: Tandis que Neower Sae Archectures Haven Insponsults et en aval croisé à une performance améliorée pour sonder l’espace en termes difficiles dans des parfaits, le monde réel tâche d’interprétabilité. Recert SAE Les efforts d’analyse comparative se trouvent Sabench Fournissez plus de soutien à ce viw, comme sur un pobench downs, les performances n’améliorent pas le Withetus.
Gings Forward, nous ne soyez pas intéressé à voir avec Tras Motfics, « Post Interptible Popitions. Frontière ful. Pour une facilité, Goodfix A fait des anti-pertes exty piorriantes des performances de direction lors de leurs récentes ventes.
Le meilleur cas actuel pour que SAE utilise des SEMS à être des tâches basées sur l’interprétabilité: Reproduire Le travail de sondage antérieur d’Anthropic, Nos résultats de Mount PROMISSE sont venus de l’utilisation de la nature interprétable des dernières dernières personnes pour trouver des probases, etc. Pendant que nous avons frappé Ahle pour éventuellement des arrosage à Smilar Resls avec les méthodes de base, elle Pratiquement Cedestablement plus facile à faire de faire ainsi So Wiant existant sae infrantre comme les neuronpedia. Nous pensons également que sur certaines données, la fonction de base de caractéristiques parasites metete avec uniquement le latate opvant Spurd). Pour les deux raisons de Mayese, certaines références futurs qui se sont accrochées au problocage de l’interprétabilité – dénigmées dans l’interprétabilité – dénigmées dans le court laps de temps pourraient pouvoir pourraient être pourraient semer la surperformance.
Nous avons personnellement appris l’imporrance de fortes lignes de base: C’était un schéma clair que ce qui a répété Thrybhut Our Investtica Gard pour les ventes, mais qui a du mal à trouver la méthode du frère fort, les améliorés se décriperaient. C’est décourageant parce que nous avons vraiment décaissé des ventes pour gagner! Mais finalement, nous avons réalisé que le Negatus Negill rigoureux est toujours un contrat de contrat important.
Certaines situations spécifiques que nous avons dirigées inita:
- Nous avons un petit excité insiblé, nous gagnons au trésor sur Sweet ACS la méthode Netter de Netter max otter la ligne de base et le SAE (voir) Probablement correct par Hace).
- Nous pensons initialement que nos résultats de retenue dans l’ensemble de données sont des signes réalisés, nous utilisons une régression logistique standard. C’est aussi urké!
- À l’origine, l’agrégation SAE basée sur des tayons multiples est vraiment prometteuse, mais lorsqu’il est implémenté basé sur la sonde basronilée.
Notre réflexion sur la recherche SAE:
Ventes Arra Une technique d’arranking, mais il n’y a pas de la forme non-areyrut non. Nous avons frappé pour fournir une partie de cette évolution de nos cours, mais un avantage a avantage avant d’avantage avantage avantageux.
Nous croyons que les progrès des applications en aval sont le principal moyen d’obtenir des commentaires du monde réel que nos techniques fonctionnent. Ainsi, afin de jufier les ventes sur les ventes dans le formulaire actuel aérien, nous pensons que cela implique de trouver d’autres applications de vente plus réussies.
Cependant, plus de Guen scientifique avance pour porter ses fruits. Il est de la fin des ventes futures de ventes différentes pour Uddeply, de surveiller et de contrôler les réseaux de neurones, même si les ventes actuelles ne sont pas. Ainsi, il est raisonnable de continuer à travailler sur une vision plus ambinante des ventes si vous devez dire que vous êtes prometteur. Mais pensent que cet importat vers le dimutanais ce qui est de Ress dans la forme actuelle artm arra gatm arte.
Introduction
Les autoencodors d’espace (ventes) ont été le Sujet brûlant de la recherche sur l’interprétabilité mécaniste (MI) pour les dernières années et demie. Malgré leur popularité, ce havre a été conformément ressenti en travail rigoureusement terminer les lignes de base Uppire the Uppire the Utandard. Au lieu de cela, Moster Edugues évalue les ventes sur les métriques proxy comme le croisement transversal croisé et l’erreur de reconstruction. Nous soutenons que nous argumenons que nous sommes un improvisation de makozuramble sur le tasfer clair si nous machinons des modèles de materstandage de Mingo Mingo.
Un taste de tâche utile sich est probit: les classificateurs de formation pour prédire des informations spécifiques des activités du modèle. Le sondage est utilisé de manière exolaire dans le MLD Welmunty aux Ugersprins, et il est pressé des semoves Redy, des problèmes d’auto-secles, des problèmes de tromperie, etc.). Étant donné que les ventes sont censées extraire des caractéristiques significatives et interprétables, nous avons hydisé la sondage du corrige en désordre corrigé le dirte de désir corring est difficile. Ainsi, Thald fournit des forces Evimece que Saes arepul.
Configuration expérimentale
Nous mouillons d’un ensemble de 113 données de classification binaire (Descripbed ici). Importtly, nous voulions éviter les effets d’éclairage de la rue, donc les effets des grands radires et la première page du journal, le tandis que l’autre nécessite Identifier si la seconde moitié de l’invite est logiquement impliquée par la première moitié.
L’ensemble des exportations de formation de Givn, nous formons SAE, les propulseurs des lattets supérieurs par diffère de difficulté et exotiques de classe de négatif. En pratique, nous ume k = 16 et 128. Nous comparons avec les méthodes de ligne (régression logistique, régression PCA et activations du modèle d’applican KNBOOST et KNN). Nous perforons des expériences sur GEMMA-2-9B avec les ventes de soutope Gemma, mais ASO reproduira les CRI Core sur LLAMA-3.1-8B et GEMMA-2-2B.
Nous voulions simpler aussi précis que la laine praticienne aurait été si SAE si SAE si la mer sonde wepe a ajouté du tolod à la boîte à outils de l’airit. Nous utilisons donc whates whates flèches d’appel « Design expérimental. Essistialy, nous formons uniquement des méthodes de ligne de base sur les données d’entraînement, Choot la meilleure méthode avec la validation AUC (zone sous le courtion ROC) et calculaire le test AUC. Hommes, nous ajoutons un produit SAE à notre sac de méthodes de Baselene et répétons le processus Say. Le delta dans le test AUC représente l’amélioration directe de l’ajout de SAE propose à la boîte à outils du praticien.
Résultats expérimentaux principaux
SILE SAES ARAS ARASY par rapport aux modèles de surveillance, nous avons dépensé des probléges dans les lignes de base standard avec des douleurs douloureuses. Cet inded finit par un cas:
Notre initiation est que, les SAT devraient aider dans les paramètres de la démd blanc. Ainsi, nous avons testé des régimes difficiles pour « forcer » cette aventure. Nous nous sommes efforcés
- Rareté de données – modification du nombre de points de données de formation / validation Ferme 2 à 1024
- Déséquilibre des classes – modification du rapport de la classe postovive au nombre total d’exemples agrippe 0,05 à 0,95
- Bruit de l’étiquette – basculer de 0 à 50% des étiquettes
- Covariable Shift – Utilisation d’un test de test dans Shift
Dans tous les régimes, nous avons constaté que SAE Probs ne prouve aucun avantage par rapport aux lignes de base standard.
Détection de la qualité de l’ensemble de données
Nous avons investi où SAE Proes Cououl aide IMAP IMAP QLALITY ISUES dans Datass. Pour un engek, en utilisant la grammaire de Glue Kola intestins daticulairement sae la dernière merci. De même, dans une tâche de classification de texte AI-VS-humaine, nous avons trouvé SAE Latelous Entrée, texte humain avec des espaces).
Cependant, en plus de plus près, nous avons trouvé des sondes de régression logistique standard Les problèmes de jeu de données IME lorsqu’ils sont promettrés. Les dernières représentations SAE ont simplement fait de Menge Ibivory Eviy, mais la méthode ndn’line Ethice.
Sondage multi-token
Nous étudions également le sondage Matti-Token, où les informations sont agrégées à travers tous les jetons dans la séquelle. Quand nous avons imlelélé max-aval sur des amateurs de SAE à travers, les robes gagnantes ont bondi de 42% à 19,6% par rapport aux lignes de base en dernier tour. Cela a créé des prometteurs! Cependant, lorsque nous avons implémenté à l’atterrisé au départ de l’attention à cette infogation de la lèle à travers, la victoire de la sonde SAE a été repensée à 8,7%.
Essensage des iProfations arrosentaires
Une autre chose que nous espérions, c’est que SAES WEPE obtient au moins des twest au fil du temps. UntoteTnetley, nous trouvons l’énergie solaire ce n’était pas le cas. Toute amélioration est au mieux marginale et n’est pas une signification statistique.
Source link