(P) renforcer ++ – La ligne de base est tout ce dont vous avez besoin dans RLVR

 (P) renforcer ++ – La ligne de base est tout ce dont vous avez besoin dans RLVR


Qu’est-ce que Renforce ++ – Baseline?

Mettez simplement, renforcez ++ – ligne de base (https://arxiv.org/abs/2501.03262) remplace la MST locale dans le GRPO par la normalisation globale de la MST / avantage global de Batch et utilise l’estimateur K2 KL pour calculer la perte de KL. Étant donné que Global Batch STD est nettement plus stable que les MST du groupe local, il améliore ainsi la stabilité de la formation.

https://preview.redd.it/hp6xkjg7ooif1.png?width=1480&format=png&auto=webp&s=ada4857ffac063bbb3aa07e56a8f51b7264cd221

Le rôle de la «moyenne locale» dans (11) est de remodeler automatiquement les récompenses, ce qui rend l’algorithme insensible aux modèles de récompense tels que 0 (incorrect) 1 (correct) -0.5 (récompense de format) ou -1 (incorrect) 1 (correct) -0.5 (récompense de format)

Cette méthode a été proposée / implémentée pour la première fois dans OpenRLHF en février 2025:

https://github.com/openrlhf/openrlhf/pull/730

https://preview.redd.it/adr58hr8ooif1.png?width=1790&format=png&auto=webp&s=64c1bf65a8792aebd90c3f301a2361c749530e0a

Et cet algorithme est également pris en charge dans Verl et Slime:

https://github.com/volcengine/verl/blob/main/examples/reinforce_plus_plus_trainer/Run_qwen2-7b_math_rf_baseline.sh

https://github.com/thudm/slime/pull/59/files#diff-e992874352ffc7f8e7f2eb36a64a19cb6b47bb4b203b14de86f6b8b1ed1378e6

Expériences de raisonnement et d’agent intégrés à l’outil

Nous avons entièrement validé l’efficacité de la normalisation globale des avantages STD / Global dans le scénario d’appel d’outils multi-tournant Comples. Nos expériences sont menées dans le cadre établi par https://arxiv.org/abs/2505.07773qui présente un environnement d’agent à tirs zéro conçu pour les modèles de grande langue pour résoudre les problèmes mathématiques avec Qwen 2.5 Base 7B.

https://preview.redd.it/zly3e9raooif1.png?width=720&format=png&auto=webp&s=4e267eaa0a49a51f7b196a73456a6d8647648dd7

Analyse d’ablation plus détaillée

https://arxiv.org/pdf/2508.08221 Vérifie davantage l’efficacité des MST mondiales dans les tâches de raisonnement:

https://preview.redd.it/qf0771dcoof1.png?width=1718&format=png&auto=webp&s=9d2580cb3a21b1199207bf84114ec5b491c3c89b

Une expérience extrêmement longue

Prorlv2 utilise la ligne de base REALFORCE ++ pour former un modèle de 1,5b pour plus de 3 000 étapes, réalisant des performances de pointe.

https://huggingface.co/nvidia/nemotron-research-reasoning-qwen-1.5b

Nemotron-research-reasoning-Qwen-1.5b (Longueur de contexte 16k) vs Nemotron-Research-reasoning-Qwen-1.5b-V2 (Longueur de contexte 8K)

https://preview.redd.it/ju2zi23eooif1.png?width=1460&format=png&auto=webp&s=eb35c0d927e07f0f2e9eac1f0b95987d12f2870f

L’efficacité de l’écart-type mondial dans l’apprentissage traditionnel du renforcement (RL)

Le jeu traditionnel RL a également validé l’efficacité de cette méthode:

https://arxiv.org/pdf/2503.11019

https://preview.redd.it/ud2ph83fooif1.png?width=1432&format=png&auto=webp&s=b947b62bd312bd64ff44261c0a81a6cc56859efa

soumis par / u / septième_day123
(lien) (Commentaires)



Source link

Related post