Découvrir quand un agent est présent dans un système

Recherche
Une nouvelle définition formelle de l’agence donne des principes clairs pour la modélisation causale des agents d’IA et les incitations auxquelles ils sont confrontés
Nous voulons construire des systèmes d’intelligence générale artificielle sûrs et alignés (AGI) qui poursuivent les objectifs prévus de ses concepteurs. Diagrammes d’influence causale (CIDS) sont un moyen de modéliser des situations de prise de décision qui nous permettent de raisonner incitations d’agent. Par exemple, voici un CID pour un processus de décision de Markov en 1 étape – un cadre typique pour les problèmes de prise de décision.
S1 représente l’état initial, A1 représente la décision de l’agent (carré), S2 l’état suivant. R2 est la récompense / utilité de l’agent (diamant). Les liens solides spécifient l’influence causale. Les bords en pointillés spécifient les liens d’informations – ce que l’agent sait lors de sa décision.
En reliant les configurations de formation aux incitations qui façonnent le comportement des agents, les CID aident à éclairer les risques potentiels avant de former un agent et peuvent inspirer de meilleures conceptions d’agents. Mais comment savons-nous quand un CID est un modèle précis d’une configuration de formation?
Notre nouveau papier, Découvrez des agentsintroduit de nouvelles façons de résoudre ces problèmes, notamment:
- La première définition formelle formelle des agents: Les agents sont des systèmes qui adapteraient leur politique si leurs actions influenaient le monde d’une manière différente
- Un algorithme pour découvrir des agents à partir de données empiriques
- Une traduction entre les modèles causaux et les cides
- Résoudre les confusions antérieures à partir de la modélisation causale incorrecte des agents
Combinés, ces résultats fournissent une couche supplémentaire d’assurance qu’une erreur de modélisation n’a pas été commise, ce qui signifie que les CID peuvent être utilisés pour analyser les incitations et les propriétés de sécurité d’un agent avec une plus grande confiance.
Exemple: modélisation d’une souris en tant qu’agent
Pour aider à illustrer notre méthode, considérez l’exemple suivant composé d’un monde contenant trois carrés, avec une souris commençant sur le carré du milieu en choisissant d’aller à gauche ou à droite, en arrivant à sa position suivante, puis potentiellement obtenir du fromage. Le sol est glacé, donc la souris pourrait glisser. Parfois, le fromage est à droite, mais parfois à gauche.
L’environnement de souris et de fromage.
Cela peut être représenté par le CID suivant:
CID pour la souris. D représente la décision de gauche / droite. X est la nouvelle position de la souris après avoir pris l’action à gauche / à droite (elle pourrait glisser, se retrouvant de l’autre côté par accident). U représente si la souris obtient du fromage ou non.
L’intuition que la souris choisirait un comportement différent pour différents environnements (folie, distribution de fromage) peut être capturé par un graphique causal mécaniséqui pour chaque variable (au niveau de l’objet), comprend également une variable de mécanisme qui régit la façon dont la variable dépend de ses parents. Surtout, nous permettons des liens entre les variables de mécanisme.
Ce graphique contient des nœuds de mécanisme supplémentaires en noir, représentant la politique de la souris et la distribution folie et fromage.
Graphique causal mécanisé pour l’environnement de la souris et du fromage.
Les bords entre les mécanismes représentent une influence causale directe. Les bords bleus sont spéciaux Terminal Adges – En gros, les bords du mécanisme a ~ → B ~ qui seraient toujours là, même si la variable au niveau de l’objet a était modifiée de sorte qu’elle n’avait pas de bords sortants.
Dans l’exemple ci-dessus, comme U n’a pas d’enfants, son bord de mécanisme doit être terminal. Mais le bord du mécanisme x ~ → d ~ n’est pas terminal, car si nous coupons X de son enfant u, alors la souris n’adaptera plus sa décision (car sa position n’affectera pas si elle obtient le fromage).
Découverte causale des agents
La découverte causale déduit un graphique causal des expériences impliquant des interventions. En particulier, on peut découvrir une flèche d’une variable A à une variable B en intervenant expérimentalement sur A et en vérifiant si B répond, même si toutes les autres variables sont maintenues fixes.
Notre premier algorithme utilise cette technique pour découvrir le graphique causal mécanisé:
L’algorithme 1 prend les données interventionnelles en entrée du système (environnement de souris et de fromage) et utilise la découverte causale pour produire un graphique causal mécanisé. Voir le papier pour plus de détails.
Notre deuxième algorithme transforme ce graphique causal mécanisé en un graphique de jeu:
L’algorithme 2 prend en entrée un graphique causal mécanisé et le mappe à un graphique de jeu. Un bord terminal Ingoing indique une décision, une décision sortante indique un utilitaire.
Pris ensemble, l’algorithme 1 suivi de l’algorithme 2 nous permet de découvrir des agents à partir d’expériences causales, les représentant en utilisant des CID.
Notre troisième algorithme transforme le graphique de jeu en un graphique causal mécanisé, nous permettant de traduire entre le jeu et les représentations mécanisées du graphique causal sous certaines hypothèses supplémentaires:
L’algorithme 3 prend en entrée un graphique de jeu et le mappe à un graphique causal mécanisé. Une décision indique un bord terminal ingératoire, un service public indique un bord terminal sortant.
De meilleurs outils de sécurité pour modéliser les agents d’IA
Nous avons proposé la première définition formelle formelle des agents. Sur la base d’une découverte causale, notre aperçu clé est que les agents sont des systèmes qui adaptent leur comportement en réponse aux changements dans la façon dont leurs actions influencent le monde. En effet, nos algorithmes 1 et 2 décrivent un processus expérimental précis qui peut aider à évaluer si un système contient un agent.
L’intérêt pour la modélisation causale des systèmes d’IA se développe rapidement et notre recherche fonde cette modélisation dans des expériences de découverte causale. Notre article démontre le potentiel de notre approche en améliorant l’analyse de sécurité de plusieurs exemple de systèmes d’IA et montre que la causalité est un cadre utile pour découvrir s’il existe un agent dans un système – une préoccupation clé pour évaluer les risques d’AGI.
Excité d’en savoir plus? Découvrez notre papier. Les commentaires et les commentaires sont les bienvenus.