IA pour la diplomatie du jeu de société

 IA pour la diplomatie du jeu de société


Recherche

Publié
Auteurs

Yoram Bachrach, János Kramár

Les agents coopèrent mieux en communiquant et en négociant, et sanctionner les promesses brisées aide à les garder honnêtes

Une communication et une coopération réussies ont été cruciales pour aider les sociétés à progresser tout au long de l’histoire. Les environnements fermés des jeux de société peuvent servir de bac à sable pour la modélisation et l’étude de l’interaction et de la communication – et nous pouvons apprendre beaucoup en les jouant. Dans notre article récent, Publié aujourd’hui dans Nature Communicationsnous montrons comment les agents artificiels peuvent utiliser la communication pour mieux coopérer dans la diplomatie du jeu de société, un domaine dynamique dans la recherche de l’intelligence artificielle (IA), connue pour son accent sur la construction d’alliance.

La diplomatie est difficile car elle a des règles simples mais une complexité émergente élevée en raison des fortes interdépendances entre les joueurs et son immense espace d’action. Pour aider à résoudre ce défi, nous avons conçu des algorithmes de négociation qui permettent aux agents de communiquer et de convenir de plans conjoints, ce qui leur permet de surmonter les agents sans capacité.

La coopération est particulièrement difficile lorsque nous ne pouvons pas compter sur nos pairs pour faire ce qu’ils promettent. Nous utilisons la diplomatie comme bac à sable pour explorer ce qui se passe lorsque les agents peuvent s’écarter de leurs accords passés. Nos recherches illustrent les risques qui émergent lorsque des agents complexes sont capables de déformer leurs intentions ou d’induire les autres en erreur concernant leurs plans futurs, ce qui mène à une autre grande question: quelles sont les conditions qui favorisent la communication et le travail d’équipe fiables?

Nous montrons que la stratégie de sanction des pairs qui rompt les contrats réduit considérablement les avantages qu’ils peuvent obtenir en abandonnant leurs engagements, favorisant ainsi une communication plus honnête.

Qu’est-ce que la diplomatie et pourquoi est-ce important?

Jeux tels que échecs, poker, Alleret beaucoup jeux vidéo ont toujours été un terrain fertile pour la recherche sur l’IA. Diplomatie est un jeu de sept joueurs de négociation et de formation d’alliance, joué sur une ancienne carte d’Europe partitionnée dans les provinces, où chaque joueur contrôle plusieurs unités (règles de diplomatie). Dans la version standard du jeu, appelé Press Diplomacy, chaque tour comprend une phase de négociation, après quoi tous les joueurs révèlent simultanément leurs mouvements choisis.

Le cœur de la diplomatie est la phase de négociation, où les joueurs essaient de s’entendre sur leurs prochains mouvements. Par exemple, une unité peut prendre en charge une autre unité, ce qui lui permet de surmonter la résistance par d’autres unités, comme illustré ici:

Deux scénarios de mouvement.
Gauche: Deux unités (une unité rouge en Bourgogne et une unité bleue en gasconie) tentent de déménager à Paris. Comme les unités ont une force égale, ni l’un ni l’autre ne réussit.
Droite: L’unité rouge de Picardy prend en charge l’unité rouge en bordeaux, accablant l’unité de Blue et permettant à l’unité rouge de bordeaux.

Des approches informatiques de la diplomatie sont recherchées depuis les années 1980, dont beaucoup ont été explorées sur une version plus simple du jeu appelé diplomatie sans presse, où la communication stratégique entre les joueurs n’est pas autorisée. Les chercheurs ont également proposé Protocoles de négociation conviviauxparfois appelé «pression restreinte».

Qu’avons-nous étudié?

Nous utilisons la diplomatie comme négociation analogique à réel, fournissant aux méthodes des agents de l’IA pour coordonner leurs mouvements. Nous prenons Nos agents de diplomatie non communicants et les augmenter pour jouer la diplomatie avec la communication en leur donnant un protocole pour négocier des contrats pour un plan d’action conjoint. Nous appelons ces négociateurs de base des agents augmentés, et ils sont liés par leurs accords.

Contrats de diplomatie.
Gauche: Une restriction permettant uniquement de prendre certaines actions par le joueur rouge (ils ne sont pas autorisés à passer de Ruhr à Bourgogne, et doivent se déplacer du Piémont à Marseille).
Droite: Un contrat entre les joueurs rouges et verts, qui apporte des restrictions des deux côtés.

Nous considérons deux protocoles: le protocole de proposition mutuelle et le protocole de choose proposé, discuté en détail dans le papier complet. Nos agents appliquent des algorithmes qui identifient des accords mutuellement bénéfiques en simulant comment le jeu pourrait se dérouler dans divers contrats. Nous utilisons le Solution de négociation de Nash depuis théorie des jeux comme base de principe pour identifier les accords de haute qualité. Le jeu peut se dérouler à bien des égards en fonction des actions des joueurs, de sorte que nos agents utilisent des simulations Monte-Carlo pour voir ce qui pourrait arriver dans le prochain tour.

Simulant les États suivants étant donné un contrat convenu. À gauche: État actuel dans une partie du conseil d’administration, y compris un contrat convenu entre les joueurs rouges et verts. Droite: plusieurs états suivants possibles.

Nos expériences montrent que notre mécanisme de négociation permet aux négociateurs de base de surpasser considérablement les agents de base non communicants.

Les négociateurs de base surpassent considérablement les agents non communicants. Gauche: Le protocole de proposition mutuelle. À droite: le protocole de choose de proposition. «Avantage de négociation» est le ratio des taux de victoire entre les agents communicants et les agents non communicants.

Agents Breaking Accords

Dans la diplomatie, les accords conclus lors de la négociation ne sont pas contraignants (la communication est «conversation bon marché ‘‘). Mais que se passe-t-il lorsque les agents qui acceptent un contrat en un tour en s’écartent le suivant? Dans de nombreux contextes réels, les gens acceptent d’agir d’une certaine manière, mais ne respectent pas leurs engagements plus tard. Pour permettre la coopération entre les agents de l’IA, ou entre les agents et les humains, nous devons examiner le piège potentiel des agents qui brisent stratégiquement leurs accords et les moyens de remédier à ce problème. Nous avons utilisé la diplomatie pour étudier comment la capacité d’abandonner nos engagements érode la confiance et la coopération, et identifier les conditions qui favorisent la coopération honnête.

Nous considérons donc les agents déviateurs, qui surmontent les négociateurs de référence honnêtes en déviant des contrats convenus. Les déviateurs simples «oublient» qu’ils ont accepté un contrat et se déplacer comme ils le souhaitent. Les déviateurs conditionnels sont plus sophistiqués et optimisent leurs actions en supposant que d’autres joueurs qui ont accepté un contrat agiront conformément à celui-ci.

Tous les types de nos agents communicants. Selon les termes de regroupement vert, chaque bloc bleu représente un algorithme d’agent spécifique.

Nous montrons que les déviateurs simples et conditionnels surpassent considérablement les négociateurs de référence, les déviateurs conditionnels majoritairement.

Agents déviateurs par rapport aux agents de négociateur de base. Gauche: Le protocole de proposition mutuelle. À droite: le protocole de choose de proposition. «Avantage déviateur» est le ratio des taux de victoire entre les agents déviateurs par rapport aux négociateurs de base.

Encourager les agents à être honnêtes

Ensuite, nous abordons le problème de déviation en utilisant des agents défensifs, qui répondent négativement aux écarts. Nous enquêtons sur les négociateurs binaires, qui ont simplement coupé les communications avec des agents qui rompent un accord avec eux. Mais l’éviter est une réaction légère, nous développons donc également des agents de sanction, qui ne prennent pas la trahison à la légère, mais modifions plutôt leurs objectifs pour tenter activement de baisser la valeur du déviateur – un adversaire avec une rancune! Nous montrons que les deux types d’agents défensifs réduisent l’avantage de la déviation, en particulier les agents sanctionnés.

Les agents non-procureurs (négociateurs de base, les négociateurs binaires et les agents de sanction) jouent contre des déviateurs conditionnels. Gauche: protocole de proposition mutuelle. Droite: Protocole de choose proposé. Les valeurs «Advantage déviateur» inférieures à 1 indiquent qu’un agent défensif surpasse un agent déviateur. Une population de négociateurs binaires (bleu) réduit l’avantage des déviateurs par rapport à une population de négociateurs de base (gris).

Enfin, nous introduisons les déviateurs savants, qui s’adaptent et optimisent leur comportement contre les agents de sanction sur plusieurs jeux, essayant de rendre les défenses ci-dessus moins efficaces. Un déviateur savant ne rompra un contrat que lorsque les gains immédiats de la déviation sont suffisamment élevés et que la capacité de l’autre agent à riposter est suffisamment faible. Dans la pratique, les déviateurs apprises cassent occasionnellement des contrats à la fin du jeu et, ce faisant, réalisent un léger avantage par rapport aux agents de sanction. Néanmoins, de telles sanctions poussent le savant déviateur à honorer plus de 99,7% de ses contrats.

Nous examinons également la dynamique d’apprentissage possible de la sanction et de la déviation: ce qui se passe lorsque les agents de sanction peuvent également s’écarter des contrats, et l’incitation potentielle à arrêter la sanction lorsque ce comportement est coûteux. De tels problèmes peuvent éroder progressivement la coopération, de sorte que des mécanismes supplémentaires tels que la répétition de l’interaction sur plusieurs jeux ou l’utilisation d’un système de confiance et de réputation peuvent être nécessaires.

Notre article laisse de nombreuses questions ouvertes pour de futures recherches: est-il possible de concevoir des protocoles plus sophistiqués pour encourager un comportement encore plus honnête? Comment gérer la combinaison de techniques de communication et d’informations imparfaites? Enfin, quels autres mécanismes pourraient dissuader la rupture des accords? La construction de systèmes d’IA équitables, transparentes et dignes de confiance est un sujet extrêmement important, et c’est un élément clé de la mission de DeepMind. L’étude de ces questions dans des bacs de sable comme la diplomatie nous aide à mieux comprendre les tensions entre la coopération et la concurrence qui pourraient exister dans le monde réel. En fin de compte, nous pensons que relever ces défis nous permet de mieux comprendre comment développer des systèmes d’IA en fonction des valeurs et des priorités de la société.

Lisez notre article complet ici.

Remerciements

Nous tenons à remercier Will Hawkins, Aliya Ahmad, Dawn Bloxwich, Lila Ibrahim, Julia Pawar, Sukhdeep Singh, Tom Anthony, Kate Larson, Julien Perolat, Marc Lanctot, Edward Hughes, Richard Ives, Karl Tuyls, Satinder Singh et Koray Kavukcuoglu pour leur soutien et au cours de la conférence.

Auteurs de papier complet

János Kramár, Tom Eccles, Ian Gemp, Andrea Tacchetti, Kevin R. McKee, Mateusz Malinowski, Thore Graepel, Yoram Bachrach.



Source link

Related post