(D) Déclaration sur l’originalité d’OpenRlhf et Verl FSDP RLHF

Récemment, il y a eu pas mal de discussions et de controverses en ligne sur OpenRLHF et Verl. En bref: OpenRlhf est comme Kartrider – l’original – et Verl FSDP est comme la vitesse QQ, qui est essentiellement un copieur d’OpenRlhf. 1. Différences de performance entre OpenRlhf et VerlIl n’y a pas de différence de performance fondamentale entre le FSDP RLHF de VERL et OpenRLHF (Deeppeed) car les deux utilisent VllM pour l’inférence et zéro3 pour la formation. 2. Sur HybridFlow Free SchedulingTout cadre RLHF développé avec Ray peut obtenir une planification gratuite car Ray Native fournit le groupe de placement fonctionnalité. 3. moteur hybrideLe moteur hybride a été proposé pour la première fois par De profondeurpas une contribution originale de Verl. 4. Ray + VllM + Transformers HF + Zero3 pour la formation RLHFCette configuration est l’une des le plus simple et le plus convivial Solutions de formation RLHF haute performance, combinant la facilité d’utilisation avec les principales performances. Il a été proposé pour la première fois et open par OpenRLHF (open source en août 2023, la plupart des fonctionnalités terminées d’ici janvier 2024). L’idée principale à l’époque était d’utiliser le format de poids HF comme un pont, permettant une synchronisation de poids transparente et une inférence à haute performance basée sur des mécanismes Zero3 / AutoTP, éviter Des cadres poids lourds comme Megatron. L’architecture OpenRLHF originale: Il existe également de nombreux détails de mise en œuvre connexes:
Tous ces éléments dans Verl FSDP étaient modélisé après openrlhf. Exemple des détails du code: OpenRlhf: Autres idées de conception comme Ref_reward déchargement, Critique Pretrain, RM distantetc., ont également été conçus ou proposés par OpenRLHF, et Verl FSDP implémentent plus tard des fonctionnalités correspondantes. 5. Contrôleur unique(Mise à jour en mai 2025) Le concept «un seul contrôleur» mentionné dans le papier Verl provient du même modèle de conception de rayons que HybridFlow. Dans les premières versions de l’implémentation Ray RLHF d’OpenRLHF, il y avait un Cette interface n’a pas été activée au début car la base de code devait être compatible avec les chemins RLHF Ray et non rayons. Plus tard, lorsque le code non rayé a été supprimé, l’API a été naturellement activée. Enfin, je tiens à remercier ByTedance pour l’ouverture de son cadre interne pour que tout le monde puisse utiliser et entretenir, ce qui aide la communauté open source à prospérer (par exemple, le soutien FSDP / ULYSSES). Cependant, j’espère que les amis de la communauté ne dénigreront pas d’autres cadres open source. BTW, la communauté open source devrait respecter l’originalité afin de se développer sainement. soumis par / u / septième_day123 |