(D) Appliquer un raisonnement continu de noix de coco dans une couche linéaire apprise qui produit des paramètres d’échantillonnage (TEMP, TOP-K, TOP-P, etc.) pour le jeton actuel?

 (D) Appliquer un raisonnement continu de noix de coco dans une couche linéaire apprise qui produit des paramètres d’échantillonnage (TEMP, TOP-K, TOP-P, etc.) pour le jeton actuel?


Salut les gens, une nouvelle expérience de pensée a détourné mon cerveau et j’espère obtenir vos commentaires avant d’aller trop loin dans le terrier du lapin et de me sentir isolé. Mon dernier article sur l’utilisation de RL pour la compression sans perte a été accueilli avec un grand engagement qui m’a aidé à me sentir moins comme si je criais dans le vide. En espérant que vous pourrez m’aider à nouveau.

L’idée principale est la suivante: que se passe-t-il si un LLM pouvait apprendre à moduler dynamiquement ses propres paramètres d’échantillonnage (température, Top-P, Top-K) pendant La génération d’une seule réponse? Au lieu d’une température statique et prédéfinie, le modèle apprendrait à décider, jeton par-token, quand être créatif et quand être précis.

Le concept: le déclenchement d’apprentissage de l’échantillonnage

Nous avons vu des progrès incroyables du raisonnement continu de manière en boucle (noix de coco) où les états cachés finaux sont la contribution pour le jet suivant, permettant au modèle d’élaborer des politiques sur la gestion de son état. Ma proposition s’appuie sur cela en proposant que la pensée continue a également la capacité de prédire et de gouverner les paramètres d’échantillonnage qui s’ensuivent à la fin de chaque passe avant, plutôt que de le laisser à des valeurs fixes.

Processus / méthode de formation proposée

https://preview.redd.it/21l0cs92dr8f1.png?width=640&format=png&auto=webp&s=49482fa71d804e999b622c2636bce28b2259408

Cela pourrait être formulé comme un problème RL, en tirant parti de GRPO. Cela pourrait ressembler à ceci:

  1. Boucle d’inférence augmentée: Comme le modèle génère une sortie, son état caché à chaque étape (t) n’est pas seulement utilisé pour prédire le prochain jeton (t+1). Au lieu de cela, il est d’abord alimenté par une petite couche linéaire apprise.
  2. Prédiction de méta-paramètre: La sortie de cette couche linéaire est un ensemble de flotteurs qui dictent directement les paramètres d’échantillonnage (par exemple, temperature, top_p) à utiliser pour générer le tout le suivant jeton. C’est un "méta-saisonning" Étape qui se produit juste avant l’échantillonnage.
  3. Déploiement continu: La sortie complète du modèle est générée à l’aide de ce processus d’échantillonnage dynamique et autonome.
  4. RL avec un dégradé politique: La génération complète est ensuite évaluée par rapport à une fonction de récompense. Les détails sont quelque peu hors de propos, il s’agit finalement d’un multiplicateur sur les méthodes existantes.
  5. Rétropropagation: Les gradients sont ensuite rétrogradés via GRPO pour mettre à jour à la fois le modèle principal et le poids léger "déclenchement" couche. Le modèle est récompensé pour avoir découvert la politique interne optimale pour comment Échantillonner sa propre distribution de probabilité pour atteindre un objectif.

Cela ne met pas à niveau la puissance d’un modèle de base, mais en particulier de RL lui-même. Le modèle reçoit essentiellement un nouvel outil et peut apprendre à l’utiliser afin d’explorer de manière optimale l’espace latent au cours des déploiements, une plus grande couverture pour le moins de déploiement. L’effet possible de RL devient considérablement plus intéressant. De plus, lorsque le modèle est ramené sur une nouvelle tâche avec un tel échantillonneur de noix de coco déjà formé, il peut alors apprendre de nouvelles tâches de façon spectaculaire car elle effectue une exploration plus diversifiée sur son espace latent. Cette méthode peut également permettre aux modèles de fonctionner beaucoup mieux dans les tâches créatives ou d’être plus créatives à l’inférence, en développant une dynamique d’échantillonnage plus complexe.

Pourquoi cela pourrait fonctionner (et les liens avec la recherche existante)

Ce n’est pas entièrement hors du champ gauche. Il résonne avec quelques concepts existants, tels que Échantillonnage de température dynamique basé sur l’entropie (ArXIV: 2403.14541) a exploré la température d’ajustement dynamique en fonction de l’entropie de la distribution de jetons pour équilibrer la qualité et la diversité. Ma proposition suggère de faire de ceci un Politique apprise et orientée vers les objectifs plutôt qu’une heuristique fixe et heuristique.

En entraînant le modèle pour contrôler sa propre inférence, nous pourrions débloquer une forme de raisonnement plus efficace et nuancée – une forme qui peut se déplacer fluide entre l’exploration et l’exploitation dans un seul processus de pensée cohérent.

Je pense que cela devrait fonctionner et cela semble sauvage si cela fonctionne! Plus de réglage hyperparamètre, laissez le modèle déterminer une politique, alignée sur son espace latent à travers la méthode de la noix de coco. Cela semble être un chemin viable pour moi! Qu’en penses-tu? Discutons et voyons si nous pouvons construire sur cela.

soumis par / u / psychonucks
(lien) (Commentaires)



Source link

Related post