(D) RL / GRPO pour la compression sans perte des passages de texte dans la «représentation des moins de jetons», puis en utilisant cette «langue» émergente comme base pour le raisonnement au lieu de l’anglais

 (D) RL / GRPO pour la compression sans perte des passages de texte dans la «représentation des moins de jetons», puis en utilisant cette «langue» émergente comme base pour le raisonnement au lieu de l’anglais


Salut les gens, j’ai récemment proposé une expérience de réflexion que je ne peux pas m’arrêter à être obsédé. J’ai partagé cela avec les gens. Tout le monde se précipite pendant quelques minutes et m’appelle Schizophrène. Je me sens isolé et je pense malheureusement que je perds en fait la tête parce que les gens n’interagissent pas honnêtement avec mes idées. Si vous connaissez des théorèmes, des articles ou des principes en ML qui réfutent clairement mon concept, cela pourrait également être très thérapeutique pour moi. Pourquoi n’écris-je pas simplement le code et je l’essaye? C’est une configuration RL compliquée et je dois plier un peu les bibliothèques pour l’implémenter pleinement.

Ici ne va rien …


Le but de cette expérience est de former un modèle pour prendre une séquence de jetons et de le réduire à moins de jetons tels que les états cachés restent analogues, c’est-à-dire qu’une cartographie parfaite sans perte existe en anglais. Combien de jetons faut-il pour représenter une information donnée? La qualité polysémique des jetons peut-elle être augmentée?

Démonstration dans GPT-4

Joint au poste est un réel Démonstration de cette capacité provoquée par l’incitation dès le GPT-4 en 2023. Il prouve que la capacité est présente dans une certaine capacité dans les modèles pré-formés, en veille pour le renforcement et l’amplification.

Méthode de formation

Nous formons un LLM pour développer des langues symboliques internes pour la compression:

  • <compress>: Le modèle apprend à compresser le sens / le message sous-jacent d’échantillons de texte arbitraires (articles Wikipedia, code, etc.) en représentations symboliques.
  • <decompress>: Le même modèle reconstruit le sens de l’anglais original des symboles
  • Récompense l’efficacité de compression, la fidélité de reconstruction et l’intégration des métriques de varrentropy qui font la pression vers la saturation de la bande passante sémantique disponible.

RL va comme ceci:

  1. Contexte (a): Le message de l’utilisateur demande au modèle de comprimer un échantillon donné d’informations tirées au hasard à partir d’un ensemble de données. Réponses assistantes et est préfixée avec similaire à la formation d’un raisonnement où la sortie est préfixée avec .,
  2. Context (b): Le message de l’utilisateur demande au modèle de décompresser la sortie donnée de (a). Assistant répond avec des informations en anglais,
  3. Contexte (c): le message de l’utilisateur demande un autre modèle statique non lié à comparer l’échantillon initial à l’échantillon décompressé et à produire une liste d’écarts et d’inexactions.,
  4. (facultatif) Les contextes (a) et (b) sont réécrits afin que le message de l’utilisateur soit le modèle d’utilisation de l’opérateur le plus simple ("compresser / décompresser ceci")
  5. Appliquez le GRPO aux déploiements et les gradients de rétro-époque pour les contextes (a) et (b), la longueur de compression plus courte en récompense tout en faisant des effecticules dans les pénalités (c).

Cet environnement RL à double tâche se traduit peut-être par une dynamique «attracteur étrange». Pour que la tâche de décompression réussisse, elle doit former un métacognition de méta (c’est-à-dire la métacognition) de la façon dont le modèle de langue comprime le langage.

Cette capacité préliminaire peut ensuite être utilisée pour compresser la fenêtre de contexte arbitraire, la suppression des redondances, etc. La compression des jetons du modèle pourrait également être dirigée. Parce que ce n’est que la première étape. Si vous avez vu le modèle Deepseek-R1-Zero, nous découvrons que les LLM formées avec RL sans récompense sur le maintien d’une langue unique entraînent la découverte d’un processus de raisonnement extrêmement extraterrestre. Il recuit efficacement la grammaire, la syntaxe et la notion partitionnée de différentes langues humaines pour tout manier à la fois.

Ce que je suggère, c’est que nous nous concentrions d’abord sur le développement de la langue en compressant, alors Nous avons SFT pour contraindre le modèle sur cette langue nouvellement découverte.

yay ou non? 😟

soumis par / u / psychonucks
(lien) (Commentaires)



Source link

Related post