(R) L’évolution de la RL pour la recherche LLMS (du renforcement au vapo)

Hé tout le monde, J’ai récemment créé un résumé de la façon dont diverses méthodes d’apprentissage par renforcement (RL) ont évolué pour affiner les modèles de grande langue (LLM). À partir de PPO et de renforcement classiques, j’ai tracé les changements – à couper le souffle des modèles de valeur, modifiant les stratégies d’échantillonnage, peaufinant les lignes de base et introduisant des astuces telles que la mise en forme des récompenses et les pertes au niveau des jetons, ce qui a connu des méthodes récentes comme GRPO, Remax, Rloo, Dapo et Vapo. https://comfyai.app/article/llm-sostaining/optimize-ppo-ased-algorithms Le graphique met en évidence la façon dont les idées se branchent et combinent, donnant une image claire du paysage de recherche dans RLHF et ses variantes. Si vous travaillez sur l’alignement LLM ou si vous curieux de savoir comment des méthodes comme Remax ou Vapo diffèrent de PPO, cela pourrait être utile. Vérifiez-le! Le DPO est une autre branche et sera bientôt mis à jour. soumis par / U / Great-Reception447 |