(D) GSPO: Méthode RLHF au niveau de QWEN3 Vs. GRPO – Analyse de stabilité et de mise à l’échelle

Intelligence Artificielle
Noesis News
août 7, 2025
0
106
5 minutes de lecture

L’équipe Qwen a récemment proposé Optimisation de la politique de séquence de groupe (GSPO)une approche d’apprentissage de renforcement pour le réglage fin de la formation LLM. Ils le positionnent comme une alternative à Optimisation de la politique relative du groupe (GRPO) – Utilisé dans Deepseek – et revendiquez l’échantillonnage de l’importance au niveau du jeton de Grpo est «mal posé» pour une formation stable.

Arrière-plan:

Méthodes RLHF populaires (par exemple PPO) Optimiser les LLM via des signaux de récompense.
Le GRPO de Deepseek étend cela en calculant les estimations de valeur au niveau de l’échantillon.
Qwen rapporte que le GRPO déclenche souvent l’instabilité du gradient et l’effondrement du modèle à moins que les ajustements complexes.

Préoccupations clés avec GRPO:

Applique un échantillonnage d’importance par jetonaccumuler une grande variance entre les longues séquences.
Particulièrement problématique pour Mélange des experts (MOE) Les modèles, où les changements de routage au niveau des jetons peuvent déstabiliser la formation.
Pour contrer cela, les pipelines basés sur GRPO s’appuient souvent sur des stratégies comme Relecture de routage.

Proposition de GSPO:

Se déplace vers Échantillonnage d’importance au niveau de la séquencenormalisation par longueur de séquence.
Réduit considérablement la variance et élimine le besoin de routage des hacks.
Qwen rapporte une convergence MOE stable et une meilleure mise à l’échelle.

Résultats des expériences:

Sur des repères tels que AIME’24, LivecodeBench et CodeForces, GSPO réalise de meilleures courbes de récompense que GRPO.
GSPO converge plus rapidement avec plus de calcul et montre des tendances de mise à l’échelle plus lisses.
GRPO nécessite une relecture de routage pour fonctionner correctement; GSPO ne le fait pas.

Si vous êtes intéressé, lisez-en plus ici: L’équipe Qwen propose le GSPO pour Qwen3, affirme que le Grpo de Deepseek est mal posé. L’article de blog comprend des formulations mathématiques des deux méthodes et des comparaisons de performances.

Je suis intéressé à savoir:

Que quelqu’un dans la communauté ait observé l’instabilité avec un échantillonnage d’importance au niveau des jetons ou GRPO?
La pondération au niveau de la séquence comme GSPO a-t-elle été testée dans vos pipelines RLHF?

soumis par / u / marketingnetmind
(lien) (Commentaires)

Source link

(D) GSPO: Méthode RLHF au niveau de QWEN3 Vs. GRPO – Analyse de stabilité et de mise à l’échelle

Noesis News

Posts Récents

Commentaires Récents

Archives

Catégories

Elon Musk prévient que l’IA « va évidemment faire...

(R) Observer les modèles inattendus dans la demande...

Comment construire un pipeline de données léger avec...

Le navigateur COMET AI de Perplexity pourrait exposer...

Elon Musk prévient que l’IA « va évidemment faire...

(R) Observer les modèles inattendus dans la demande...

Comment construire un pipeline de données léger avec...

Le navigateur COMET AI de Perplexity pourrait exposer...

Pourquoi Jamie a-t-il tué Katie à l’adolescence? Qu’est-ce...

Bitcoin prêt à récupérer 90 000 $, selon...

Les innovations SS atteignent 4 000 chirurgies robotiques...

Apprenez vos animaux de ferme avec l’IA!

L’IA d’Elon Musk propose des

Last Week in AI #297

Voici quelle est la tendance

Noesis News

Related post

Posts Récents

Commentaires Récents

Archives

Catégories

Tags