WTF est Grpo?!? – Kdnuggets

 WTF est Grpo?!? – Kdnuggets



Image de l’auteur | Idéogramme

Apprentissage du renforcement Les algorithmes font partie du domaine de l’intelligence artificielle et de l’apprentissage automatique depuis un certain temps. Ces algorithmes visent à Poursuivre un objectif en maximisant les récompenses cumulatives par le biais d’interactions d’essais et d’erreur avec un environnement.

Alors que pendant plusieurs décennies, ils ont été principalement appliqués à des environnements simulés tels que la robotique, les jeux et la résolution complexe de puzzle, ces dernières années, il y a eu un changement massif vers l’apprentissage du renforcement pour une utilisation particulièrement impactante dans les applications du monde réel – le plus notoirement dans les modèles de langage de grands grands (LLMS) mieux alignés avec des préférences humaines dans des contextes conversationnels. Et c’est là que Grpo (Optimisation de la politique relative du groupe), une méthode développée par En profondeurest devenu de plus en plus pertinent.

Cet article dévoile ce qu’est GRPO et explique comment il fonctionne dans le contexte des LLM, en utilisant un récit plus simple et compréhensible. Commençons!

À l’intérieur de GRPO (optimisation de la politique relative du groupe)

Les LLM sont parfois limitées lorsqu’ils ont la tâche de générer des réponses aux requêtes utilisateur qui sont fortement basées sur le contexte. Par exemple, lorsqu’on lui a demandé de répondre à une question basée sur un document donné, un extrait de code ou une arrière-plan fournis par l’utilisateur, susceptible de remplacer ou de contredire les «connaissances mondiales» générales. Essentiellement, les connaissances acquises par la LLM lorsqu’elles ont été formées – c’est-à-dire être nourri avec des tonnes de documents de texte pour apprendre à comprendre et à générer un langage – peut parfois désaligner ou même entrer en conflit avec les informations ou le contexte fourni aux côtés de l’invite de l’utilisateur.

GRPO a été conçu pour améliorer les capacités de LLM, en particulier lorsqu’ils présentent les problèmes décrits ci-dessus. Il s’agit d’une variante d’une autre approche d’apprentissage par renforcement populaire, d’optimisation de politique proximale (PPO), et il est conçu pour exceller au raisonnement mathématique tout en optimisant les limites d’utilisation de la mémoire de PPO.

Pour mieux comprendre GRPO, examinons d’abord le PPO. En termes simples, et dans le contexte des LLM, PPO essaie d’améliorer soigneusement les réponses générées du modèle à l’utilisateur par essais et erreurs, mais sans laisser le modèle s’éloigner trop de ce que ses connaissances déjà connues. Ce principe ressemble au processus de formation d’un étudiant pour écrire de meilleurs essais: bien que PPO ne veuille pas que l’étudiant change complètement son style d’écriture sur des commentaires, l’algorithme préfère les guider avec de petites et régulières, aidant ainsi l’élève à améliorer progressivement ses compétences en rédaction d’essais tout en restant sur la bonne voie.

Pendant ce temps, GRPO va au-delà, et c’est là que le « G » pour le groupe en Grpo entre en jeu. De retour à l’exemple des élèves précédents, GRPO ne se limite pas à la correction des compétences de rédaction d’essais de l’étudiant individuellement: il le fait en observant comment un groupe d’autres étudiants réagit à des tâches similaires, en récompensant ceux dont les réponses sont les plus précises, cohérentes et contentes avec d’autres étudiants du groupe. Retour à LLM et au jargon d’apprentissage du renforcement, ce type d’approche collaborative aide à renforcer les modèles de raisonnement qui sont plus logiques, robustes et alignés sur le comportement LLM souhaité, en particulier dans des tâches difficiles comme maintenir la cohérence dans les longues conversations ou la résolution de problèmes mathématiques.

Dans la métaphore ci-dessus, l’élève en cours de formation est la politique actuelle de l’algorithme d’apprentissage en renforcement, associée à la mise à jour de la version LLM. Une politique d’apprentissage par renforcement est essentiellement comme le guide interne du modèle – expliquant au modèle comment sélectionner sa prochaine décision ou réponse en fonction de la situation ou de la tâche actuelle. Pendant ce temps, le groupe d’autres étudiants de GRPO est comme une population de réponses ou de politiques alternatives, généralement échantillonnées à partir de plusieurs variantes de modèle ou de différentes étapes de formation (versions de maturité, pour ainsi dire) du même modèle.

L’importance des récompenses dans Grpo

Un aspect important à considérer lors de l’utilisation de GRPO est qu’il profite souvent de s’appuyer sur Récompenses mesurables travailler efficacement. Une récompense, dans ce contexte, peut être comprise comme un signal objectif qui indique la pertinence globale de la réponse d’un modèle – en tenant compte des facteurs tels que la qualité, la précision factuelle, la maîtrise et la pertinence contextuelle.

Par exemple, si l’utilisateur a posé une question sur « Quels quartiers d’Osaka visiter pour avoir essayé la meilleure nourriture de rue« , une réponse appropriée devrait principalement mentionner des suggestions spécifiques et à jour des emplacements à visiter à Osaka, comme Dotonbori ou Marché de Kuromon Ichibaainsi que de brèves explications sur les aliments de rue qui peuvent être trouvés là-bas (je vous regarde, les boules de takoyaki). Une réponse moins appropriée pourrait énumérer les villes non pertinentes ou les mauvais endroits, fournir de vagues suggestions ou simplement mentionner la nourriture de rue pour essayer, en ignorant complètement la partie « où » de la réponse.

Les récompenses mesurables aident à guider l’algorithme GRPO en lui permettant de rédiger et de comparer une gamme de réponses possibles, toutes générées par le modèle de sujet isolément, mais en observant comment d’autres variantes de modèle ont répondu à la même invite. Le modèle de sujet est donc encouragé à adopter des modèles et des comportements à partir des réponses plus scores (les plus récompensées) à travers le groupe de modèles variants. Le résultat? Des réponses plus fiables, cohérentes et consacrées au contexte sont livrées à l’utilisateur final, en particulier dans les tâches de réponse aux questions impliquant un raisonnement, des requêtes nuancées ou nécessitant un alignement sur les préférences humaines.

Conclusion

GRPO est une approche d’apprentissage de renforcement développée par En profondeur Améliorer les performances des modèles de grande langue de pointe en suivant le principe de « apprendre à générer de meilleures réponses en observant comment les pairs d’un groupe réagissent ». En utilisant un récit doux, cet article a mis en lumière le fonctionnement du GRPO et comment il ajoute de la valeur en aidant les modèles de langage plus robustes, au contexte et efficaces lors de la gestion des scénarios conversationnels complexes ou nuancés.

Iván Palomares Carrascosa est un leader, écrivain, conférencier et conseiller dans l’IA, l’apprentissage automatique, le Deep Learning & LLMS. Il entraîne et guide les autres à exploiter l’IA dans le monde réel.



Source link

Related post