(D) GSPO: Méthode RLHF au niveau de QWEN3 Vs. GRPO – Analyse de stabilité et de mise à l’échelle

 (D) GSPO: Méthode RLHF au niveau de QWEN3 Vs. GRPO – Analyse de stabilité et de mise à l’échelle


L’équipe Qwen a récemment proposé Optimisation de la politique de séquence de groupe (GSPO)une approche d’apprentissage de renforcement pour le réglage fin de la formation LLM. Ils le positionnent comme une alternative à Optimisation de la politique relative du groupe (GRPO) – Utilisé dans Deepseek – et revendiquez l’échantillonnage de l’importance au niveau du jeton de Grpo est «mal posé» pour une formation stable.

Arrière-plan:

  • Méthodes RLHF populaires (par exemple PPO) Optimiser les LLM via des signaux de récompense.
  • Le GRPO de Deepseek étend cela en calculant les estimations de valeur au niveau de l’échantillon.
  • Qwen rapporte que le GRPO déclenche souvent l’instabilité du gradient et l’effondrement du modèle à moins que les ajustements complexes.

Préoccupations clés avec GRPO:

  • Applique un échantillonnage d’importance par jetonaccumuler une grande variance entre les longues séquences.
  • Particulièrement problématique pour Mélange des experts (MOE) Les modèles, où les changements de routage au niveau des jetons peuvent déstabiliser la formation.
  • Pour contrer cela, les pipelines basés sur GRPO s’appuient souvent sur des stratégies comme Relecture de routage.

Proposition de GSPO:

  • Se déplace vers Échantillonnage d’importance au niveau de la séquencenormalisation par longueur de séquence.
  • Réduit considérablement la variance et élimine le besoin de routage des hacks.
  • Qwen rapporte une convergence MOE stable et une meilleure mise à l’échelle.

Résultats des expériences:

  • Sur des repères tels que AIME’24, LivecodeBench et CodeForces, GSPO réalise de meilleures courbes de récompense que GRPO.
  • GSPO converge plus rapidement avec plus de calcul et montre des tendances de mise à l’échelle plus lisses.
  • GRPO nécessite une relecture de routage pour fonctionner correctement; GSPO ne le fait pas.

Si vous êtes intéressé, lisez-en plus ici: L’équipe Qwen propose le GSPO pour Qwen3, affirme que le Grpo de Deepseek est mal posé. L’article de blog comprend des formulations mathématiques des deux méthodes et des comparaisons de performances.

Je suis intéressé à savoir:

  • Que quelqu’un dans la communauté ait observé l’instabilité avec un échantillonnage d’importance au niveau des jetons ou GRPO?
  • La pondération au niveau de la séquence comme GSPO a-t-elle été testée dans vos pipelines RLHF?

soumis par / u / marketingnetmind
(lien) (Commentaires)



Source link

Related post