Enseigner aux LLM à s’auto-réflexer avec l’apprentissage du renforcement avec

 Enseigner aux LLM à s’auto-réflexer avec l’apprentissage du renforcement avec


Aujourd’hui, nous sommes rejoints par Maohao Shen, doctorant au MIT, pour discuter de son article, «Satori: apprentissage du renforcement avec la chaîne d’action-action améliore le raisonnement LLM via une recherche autorégressive». Nous fouillons comment Satori exploite le renforcement de l’apprentissage pour améliorer le raisonnement du modèle de langue – permettant l’auto-réflexion du modèle, l’auto-correction et l’exploration de solutions alternatives. Nous explorons l’approche de la chaîne d’action (manteau), qui utilise des jetons spéciaux – continuez, réfléchissez et explorez – pour guider le modèle à travers des actions de raisonnement distinctes, lui permettant de naviguer dans des tâches de raisonnement complexes sans supervision externe. Nous décomposons également le processus de formation en deux étapes de Satori: le réglage du format, qui enseigne au modèle pour comprendre et utiliser les jetons d’action spéciaux, et l’apprentissage du renforcement, qui optimise le raisonnement par l’auto-amélioration des essais et erreurs. Nous couvrons les techniques clés telles que «redémarrer et explorer», ce qui permet au modèle de s’auto-correction et de généraliser au-delà de son domaine de formation. Enfin, Maohao examine les performances de Satori et comment elle se compare à d’autres modèles, la conception de récompense, les repères utilisés et les observations surprenantes faites au cours de la recherche.



Source link

Related post