Découverte de la présence d’un agent dans un système
Découverte d'un agent dans un système.
Nouvelle définition formelle de l’agence donnant des principes clairs pour la modélisation causale des agents IA et les incitations auxquelles ils sont confrontés
Nous voulons construire des systèmes d’intelligence artificielle générale (AGI) sûrs et alignés qui poursuivent les objectifs souhaités par leurs concepteurs. Les diagrammes d’influence causale (CID) sont une manière de modéliser les situations de prise de décision qui nous permettent de raisonner sur les incitations des agents. Par exemple, voici un CID pour un processus de décision de Markov à 1 étape – un cadre typique pour les problèmes de prise de décision.

En reliant les configurations de formation aux incitations qui façonnent le comportement de l’agent, les CID aident à mettre en évidence les risques potentiels avant la formation d’un agent et peuvent inspirer de meilleures conceptions d’agent. Mais comment savoir quand un CID est un modèle précis d’une configuration de formation ?
Notre nouvel article, Découverte des agents, présente de nouvelles façons de résoudre ces problèmes, notamment :
- La première définition causale formelle des agents : Les agents sont des systèmes qui adapteraient leur politique si leurs actions influençaient le monde d’une manière différente
- Un algorithme pour découvrir des agents à partir de données empiriques
- Une traduction entre les modèles causaux et les CID
- Résoudre les confusions antérieures dues à une modélisation causale incorrecte des agents
Pris ensemble, ces résultats fournissent une couche supplémentaire d’assurance qu’une erreur de modélisation n’a pas été commise, ce qui signifie que les CID peuvent être utilisés pour analyser les incitations et les propriétés de sécurité d’un agent avec plus de confiance.
- Faire progresser la conservation avec la reconnaissance faciale basée sur l’IA des tortues
- De la commande des moteurs à l’intelligence incarnée
- Dans une conversation avec l’IA construire de meilleurs modèles de langage
Exemple : modélisation d’une souris en tant qu’agent
Pour illustrer notre méthode, considérons l’exemple suivant comprenant un monde contenant trois carrés, avec une souris commençant dans le carré du milieu choisissant d’aller à gauche ou à droite, se rendant à sa position suivante et pouvant éventuellement obtenir du fromage. Le sol est glissant, donc la souris peut glisser. Parfois, le fromage est à droite, mais parfois à gauche.

Cela peut être représenté par le CID suivant :

L’intuition selon laquelle la souris choisirait un comportement différent en fonction des paramètres de l’environnement (glace, distribution du fromage) peut être capturée par un graphe causal mécanisé, qui pour chaque variable (niveau de l’objet), inclut également une variable de mécanisme qui régit la façon dont la variable dépend de ses parents. Importamment, nous autorisons des liens entre les variables de mécanisme.
Ce graphe contient des nœuds de mécanisme supplémentaires en noir, représentant la politique de la souris ainsi que la glace et la distribution du fromage.

Les arêtes entre les mécanismes représentent une influence causale directe. Les arêtes bleues sont des arêtes terminales spéciales – en gros, des arêtes de mécanisme A~ → B~ qui seraient toujours présentes, même si la variable de niveau d’objet A était modifiée de manière à ce qu’elle n’ait aucune arête sortante.
Dans l’exemple ci-dessus, puisque U n’a pas d’enfants, son arête de mécanisme doit être terminale. Mais l’arête de mécanisme X~ → D~ n’est pas terminale, car si nous coupons X de son enfant U, alors la souris n’adaptera plus sa décision (parce que sa position n’affectera pas si elle obtient le fromage ou non).
Découverte causale des agents
La découverte causale infère un graphe causal à partir d’expériences impliquant des interventions. En particulier, on peut découvrir une flèche d’une variable A à une variable B en intervenant expérimentalement sur A et en vérifiant si B réagit, même si toutes les autres variables sont maintenues constantes.
Notre premier algorithme utilise cette technique pour découvrir le graphe causal mécanisé:

Notre deuxième algorithme transforme ce graphe causal mécanisé en un graphe de jeu:

En combinant l’algorithme 1 suivi de l’algorithme 2, nous pouvons découvrir des agents à partir d’expériences causales, en les représentant à l’aide de CIDs.
Notre troisième algorithme transforme le graphe de jeu en un graphe causal mécanisé, nous permettant de traduire entre les représentations du jeu et du graphe causal mécanisé sous certaines hypothèses supplémentaires:

Meilleurs outils de sécurité pour modéliser les agents IA
Nous avons proposé la première définition causale formelle des agents. Fondée sur la découverte causale, notre idée principale est que les agents sont des systèmes qui adaptent leur comportement en réponse aux changements dans la façon dont leurs actions influencent le monde. En effet, nos Algorithmes 1 et 2 décrivent un processus expérimental précis qui peut aider à évaluer si un système contient un agent.
L’intérêt pour la modélisation causale des systèmes d’IA est en pleine croissance, et notre recherche fonde cette modélisation sur des expériences de découverte causale. Notre article démontre le potentiel de notre approche en améliorant l’analyse de sécurité de plusieurs exemples de systèmes d’IA et montre que la causalité est un cadre utile pour découvrir s’il y a un agent dans un système – une préoccupation majeure pour évaluer les risques de l’IA générale.
Envie d’en savoir plus ? Consultez notre article . Vos commentaires et suggestions sont les bienvenus.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Mon parcours de stagiaire chez DeepMind à mentor
- Maximiser l’impact de nos percées
- Comment nos principes ont aidé à définir la publication d’AlphaFold
- Construction d’agents de dialogue plus sûrs
- Soutenir la prochaine génération de leaders en IA
- Découvrir de nouveaux algorithmes avec AlphaTensor
- Comment des objectifs indésirables peuvent survenir avec des récompenses correctes