Construire des agents de dialogue plus sûrs – Google Deepmind
Recherche
Former une IA pour communiquer d’une manière plus utile, correcte et inoffensive
Ces dernières années, les modèles de grandes langues (LLM) ont réussi à un éventail de tâches telles que la réponse aux questions, la résumé et le dialogue. Le dialogue est une tâche particulièrement intéressante car elle présente une communication flexible et interactive. Cependant, les agents de dialogue propulsés par les LLM peuvent exprimer des informations inexactes ou inventées, utiliser un langage discriminatoire ou encourager un comportement dangereux.
Pour créer des agents de dialogue plus sûrs, nous devons être capables d’apprendre de la rétroaction humaine. En appliquant l’apprentissage du renforcement basé sur les contributions des participants à la recherche, nous explorons de nouvelles méthodes pour la formation d’agents de dialogue qui sont prometteurs pour un système plus sûr.
Dans notre dernier documentnous présentons Moineau – Un agent de dialogue utile et réduit le risque de réponses dangereuses et inappropriées. Notre agent est conçu pour parler avec un utilisateur, répondre aux questions et rechercher sur Internet en utilisant Google lorsqu’il est utile de rechercher des preuves pour éclairer ses réponses.
Notre nouveau modèle d’IA conversationnel répond à lui seul à une invite humaine initiale.
Sparrow est un modèle de recherche et une preuve de concept, conçu dans le but de former des agents de dialogue pour être plus utiles, corrects et inoffensifs. En apprenant ces qualités dans un cadre de dialogue général, Sparrow fait progresser notre compréhension de la façon dont nous pouvons former des agents à être plus sûrs et plus utiles – et, finalement, à construire une intelligence générale artificielle (AGI) plus sûre et plus utile.
Sparrow refusant de répondre à une question potentiellement nocive.
Comment fonctionne Sparrow
La formation d’une IA conversationnelle est un problème particulièrement difficile car il est difficile de déterminer ce qui fait un dialogue qui réussit. Pour résoudre ce problème, nous nous tournons vers une forme d’apprentissage par renforcement (RL) sur la base des commentaires des gens, en utilisant les commentaires des préférences des participants à l’étude pour former un modèle de l’utilité d’une réponse.
Pour obtenir ces données, nous montrons à nos participants plusieurs réponses du modèle à la même question et leur nous demandons la réponse le plus. Parce que nous montrons des réponses avec et sans preuves récupérées sur Internet, ce modèle peut également déterminer quand une réponse doit être appuyée avec des preuves.
Nous demandons aux participants à l’étude d’évaluer et d’interagir avec le moineau naturellement ou de manière adversaire, en élargissant continuellement l’ensemble de données utilisé pour former Sparrow.
Mais l’augmentation de l’utilité n’est qu’une partie de l’histoire. Pour nous assurer que le comportement du modèle est sûr, nous devons limiter son comportement. Et donc, nous déterminons un ensemble simple de règles simples pour le modèle, telles que «ne faites pas de déclarations menaçantes» et «ne faites pas de commentaires haineux ou insultant».
Nous fournissons également des règles concernant des conseils éventuellement nuisibles et ne prétendons pas être une personne. Ces règles ont été éclairées en étudiant les travaux existants sur les dommages linguistiques et en consultant des experts. Nous demandons ensuite à nos participants à l’étude de parler à notre système, dans le but de le faire enfreindre les règles. Ces conversations entraînons ensuite un «modèle de règle» distinct qui indique que le comportement de Sparrow enfreint l’une des règles.
Vers une meilleure IA et de meilleurs jugements
Vérifier les réponses de Sparrow pour l’exactitude est difficile même pour les experts. Au lieu de cela, nous demandons à nos participants de déterminer si les réponses de Sparrow sont plausibles et si la preuve fournit le Sparrow soutient réellement la réponse. Selon nos participants, Sparrow fournit une réponse plausible et le soutient avec des preuves 78% du temps lorsqu’on a posé une question factuelle. Il s’agit d’une grande amélioration par rapport à nos modèles de référence. Pourtant, Sparrow n’est pas à l’abri des erreurs, comme hallucinant des faits et donnant parfois des réponses qui sont hors sujet.
Sparrow a également place à l’amélioration de son suivi des règles. Après la formation, les participants étaient toujours en mesure de le tromper en enfreignant nos règles 8% du temps, mais par rapport aux approches plus simples, Sparrow est meilleur pour suivre nos règles sous sondage adversaire. Par exemple, notre modèle de dialogue d’origine a enfreint les règles à peu près 3x plus souvent que le moineau lorsque nos participants ont essayé de le faire pour le faire.
Sparrow répond à une question et à une question de suivi en utilisant des preuves, puis suit la règle «Ne faites pas semblant d’avoir une règle d’identité humaine» lorsqu’on lui a posé une question personnelle (échantillon du 9 septembre 2022).
Notre objectif avec Sparrow était de construire des machines flexibles pour appliquer les règles et les normes dans les agents de dialogue, mais les règles particulières que nous utilisons sont préliminaires. L’élaboration d’un ensemble de règles meilleur et plus complet nécessitera à la fois des contributions expertes sur de nombreux sujets (y compris les décideurs, les spécialistes des sciences sociales et les éthiciens) et les contributions participatives à partir d’un éventail diversifié d’utilisateurs et de groupes affectés. Nous pensons que nos méthodes s’appliqueront toujours à un ensemble de règles plus rigoureux.
Sparrow est un pas en avant significatif pour comprendre comment former des agents de dialogue pour être plus utiles et plus sûrs. Cependant, la communication réussie entre les personnes et les agents de dialogue devrait non seulement éviter les préjudices mais s’aligner sur les valeurs humaines pour une communication efficace et bénéfique, comme discuté dans les travaux récents sur Aligner les modèles de langue avec les valeurs humaines.
Nous soulignons également qu’un bon agent refusera de répondre aux questions dans des contextes où il est approprié de s’en remettre aux humains ou où cela a le potentiel de dissuader un comportement nocif. Enfin, nos recherches initiales se sont concentrées sur un agent anglophone, et d’autres travaux sont nécessaires pour assurer des résultats similaires dans d’autres langues et contextes culturels.
À l’avenir, nous espérons que les conversations entre les humains et les machines peuvent entraîner de meilleurs jugements sur le comportement de l’IA, permettant aux gens d’aligner et d’améliorer les systèmes qui pourraient être trop complexes pour comprendre sans aide à la machine.
Désireux d’explorer un chemin conversationnel vers le coffre-fort AGI? Étaient Embauche actuellement des chercheurs pour notre équipe d’alignement évolutive.
