(R) transfert des intérêts pré-entraînés

 (R) transfert des intérêts pré-entraînés


Tout en travaillant avec des vocabulaires personnalisés et des architectures de modèle, j’ai rencontré des preuves que la transférabilité des couches d’intégration à différentes tâches / architectures est plus efficace qu’on ne le pensait auparavant. Lorsque des différences telles que la dimensionnalité, les décalages de vocabulaire sont contrôlés, la source de l’incorporation semble faire une plus grande différence, même lorsqu’elle est gelée, et même lorsqu’elle est déplacée dans une architecture de transformateur différente avec un modèle d’attention différent.

Quelqu’un d’autre examine-t-il cela? La plupart des recherches que j’ai trouvées mélangent des composants du codeur et du décodeur pendant le transfert ou se concentrent sur la réutilisation de modèles complets plutôt que d’isoler les intérêts. Dans ma configuration, je ne transfère que le couche d’incorporation– soit d’un LLM (Transformer) ou un modèle d’incorporation peu profond– en aval fixe modèle de notation formé à partir de zéro. Cela me permet d’évaluer directement la transférabilité et l’utilité inductive des intérêts eux-mêmes, indépendants du reste de l’architecture.

Comment puis-je rendre cela plus rigoureux ou utile? Quels types de lignes de base ou de cibles de transfert rendraient cela plus convaincant? Est-ce digne d’une enquête plus approfondie?

Un travail connexe, mais rien ne fait la même chose:

  • Kim et al. (2024)Lors de l’initialisation des transformateurs avec des intérêts pré-formés Études comment les incorporations de jetons pré-entraînées affectent la convergence et la généralisation dans les transformateurs, mais ne teste pas le transfert dans différentes architectures en aval.
  • Ziarko et al. (2024)Réaliser des modèles de langage dans les modèles d’intégration: trouver la recette de calcul optimale Explore comment extraire les intérêts de LMS pour la réutilisation, mais se concentre sur l’efficacité et la précomputation, et non les tâches de notation.
  • Sun et al. (2025)Réutilisation des intérêts: recherche de modèle de récompense reproductible dans l’alignement du modèle de grande langue sans GPU Réutilise les incorporations dans les pipelines d’alignement, mais assume des architectures de modèle fixe et n’isolat pas la couche d’incorporation.

Heureux de partager plus de détails si les gens sont intéressés.

(Avertissement: écrit par un humain, édité avec Chatgpt)

soumis par / u / arkamedus
(lien) (Commentaires)



Source link

Related post