(P) renforcer ++ – La ligne de base est tout ce dont vous avez besoin dans RLVR

Qu’est-ce que Renforce ++ – Baseline?Mettez simplement, renforcez ++ – ligne de base (https://arxiv.org/abs/2501.03262) remplace la MST locale dans le GRPO par la normalisation globale de la MST / avantage global de Batch et utilise l’estimateur K2 KL pour calculer la perte de KL. Étant donné que Global Batch STD est nettement plus stable que les MST du groupe local, il améliore ainsi la stabilité de la formation. Le rôle de la «moyenne locale» dans (11) est de remodeler automatiquement les récompenses, ce qui rend l’algorithme insensible aux modèles de récompense tels que 0 (incorrect) 1 (correct) -0.5 (récompense de format) ou -1 (incorrect) 1 (correct) -0.5 (récompense de format) Cette méthode a été proposée / implémentée pour la première fois dans OpenRLHF en février 2025: https://github.com/openrlhf/openrlhf/pull/730 Et cet algorithme est également pris en charge dans Verl et Slime: Expériences de raisonnement et d’agent intégrés à l’outilNous avons entièrement validé l’efficacité de la normalisation globale des avantages STD / Global dans le scénario d’appel d’outils multi-tournant Comples. Nos expériences sont menées dans le cadre établi par https://arxiv.org/abs/2505.07773qui présente un environnement d’agent à tirs zéro conçu pour les modèles de grande langue pour résoudre les problèmes mathématiques avec Qwen 2.5 Base 7B. Analyse d’ablation plus détailléehttps://arxiv.org/pdf/2508.08221 Vérifie davantage l’efficacité des MST mondiales dans les tâches de raisonnement: Une expérience extrêmement longueProrlv2 utilise la ligne de base REALFORCE ++ pour former un modèle de 1,5b pour plus de 3 000 étapes, réalisant des performances de pointe. https://huggingface.co/nvidia/nemotron-research-reasoning-qwen-1.5b Nemotron-research-reasoning-Qwen-1.5b (Longueur de contexte 16k) vs Nemotron-Research-reasoning-Qwen-1.5b-V2 (Longueur de contexte 8K) L’efficacité de l’écart-type mondial dans l’apprentissage traditionnel du renforcement (RL)Le jeu traditionnel RL a également validé l’efficacité de cette méthode: soumis par / u / septième_day123 |