(R) Amélioration des modèles de gros langues avec un réglage fin concept

 (R) Amélioration des modèles de gros langues avec un réglage fin concept


Tl; dr: CAFT permet une prédiction multi-token pour le réglage fin. Améliore les performances via une meilleure compréhension conceptuelle.

Papier: https://www.arxiv.org/abs/2506.07833

Code: https://github.com/michaelchen-lab/caft-llm

Motivations:

  • Les tokenisers segmentent les mots / phrases cohérentes en fragments de texte artificiels, ce qui entrave la formation via une prédiction suivante.
  • La formation multi-token résout cela, mais les méthodes existantes (ici et ici) sont confinées à la phase de pré-formation. CAFT, pour la première fois, permet une prédiction multi-token pendant le réglage fin

Architecture:

Les têtes auxiliaires sont d’abord formées afin de faciliter le réglage fin multi-token sur les modèles suivants. Cela ne doit être formé qu’une seule fois pour un modèle donné et peut être fourni par un tiers, donc les praticiens ont seulement besoin de se concentrer sur l’application de CAFT à leur tâche spécifique. Après le réglage fin, les têtes auxiliaires sont jetées, il n’y a donc pas de coûts supplémentaires à l’inférence.

Architecture CAFT

Résultats: Des gains de performances substantiels dans le codage, les mathématiques, le résumé de texte, la génération moléculaire et la conception de protéines de novo.

soumis par / u / Micky04
(lien) (Commentaires)



Source link

Related post