Découverte de la présence d’un agent dans un système

Découverte d'un agent dans un système.

Nouvelle définition formelle de l’agence donnant des principes clairs pour la modélisation causale des agents IA et les incitations auxquelles ils sont confrontés

Nous voulons construire des systèmes d’intelligence artificielle générale (AGI) sûrs et alignés qui poursuivent les objectifs souhaités par leurs concepteurs. Les diagrammes d’influence causale (CID) sont une manière de modéliser les situations de prise de décision qui nous permettent de raisonner sur les incitations des agents. Par exemple, voici un CID pour un processus de décision de Markov à 1 étape – un cadre typique pour les problèmes de prise de décision.

S₁ représente l'état initial, A₁ représente la décision de l'agent (carré), S₂ l'état suivant. R₂ est la récompense/utilité de l'agent (losange). Les liens solides spécifient l'influence causale. Les liens en pointillés spécifient les liens d'information - ce que l'agent sait lorsqu'il prend sa décision.

En reliant les configurations de formation aux incitations qui façonnent le comportement de l’agent, les CID aident à mettre en évidence les risques potentiels avant la formation d’un agent et peuvent inspirer de meilleures conceptions d’agent. Mais comment savoir quand un CID est un modèle précis d’une configuration de formation ?

Notre nouvel article, Découverte des agents, présente de nouvelles façons de résoudre ces problèmes, notamment :

  • La première définition causale formelle des agents : Les agents sont des systèmes qui adapteraient leur politique si leurs actions influençaient le monde d’une manière différente
  • Un algorithme pour découvrir des agents à partir de données empiriques
  • Une traduction entre les modèles causaux et les CID
  • Résoudre les confusions antérieures dues à une modélisation causale incorrecte des agents

Pris ensemble, ces résultats fournissent une couche supplémentaire d’assurance qu’une erreur de modélisation n’a pas été commise, ce qui signifie que les CID peuvent être utilisés pour analyser les incitations et les propriétés de sécurité d’un agent avec plus de confiance.

Exemple : modélisation d’une souris en tant qu’agent

Pour illustrer notre méthode, considérons l’exemple suivant comprenant un monde contenant trois carrés, avec une souris commençant dans le carré du milieu choisissant d’aller à gauche ou à droite, se rendant à sa position suivante et pouvant éventuellement obtenir du fromage. Le sol est glissant, donc la souris peut glisser. Parfois, le fromage est à droite, mais parfois à gauche.

L'environnement de la souris et du fromage.

Cela peut être représenté par le CID suivant :

CID pour la souris. D représente la décision de gauche/droite. X est la nouvelle position de la souris après avoir pris l'action gauche/droite (elle peut glisser et se retrouver de l'autre côté par accident). U représente si la souris obtient du fromage ou non.

L’intuition selon laquelle la souris choisirait un comportement différent en fonction des paramètres de l’environnement (glace, distribution du fromage) peut être capturée par un graphe causal mécanisé, qui pour chaque variable (niveau de l’objet), inclut également une variable de mécanisme qui régit la façon dont la variable dépend de ses parents. Importamment, nous autorisons des liens entre les variables de mécanisme.

Ce graphe contient des nœuds de mécanisme supplémentaires en noir, représentant la politique de la souris ainsi que la glace et la distribution du fromage.

Graphe causal mécanisé pour la souris et l'environnement du fromage.

Les arêtes entre les mécanismes représentent une influence causale directe. Les arêtes bleues sont des arêtes terminales spéciales – en gros, des arêtes de mécanisme A~ → B~ qui seraient toujours présentes, même si la variable de niveau d’objet A était modifiée de manière à ce qu’elle n’ait aucune arête sortante.

Dans l’exemple ci-dessus, puisque U n’a pas d’enfants, son arête de mécanisme doit être terminale. Mais l’arête de mécanisme X~ → D~ n’est pas terminale, car si nous coupons X de son enfant U, alors la souris n’adaptera plus sa décision (parce que sa position n’affectera pas si elle obtient le fromage ou non).

Découverte causale des agents

La découverte causale infère un graphe causal à partir d’expériences impliquant des interventions. En particulier, on peut découvrir une flèche d’une variable A à une variable B en intervenant expérimentalement sur A et en vérifiant si B réagit, même si toutes les autres variables sont maintenues constantes.

Notre premier algorithme utilise cette technique pour découvrir le graphe causal mécanisé:

L'algorithme 1 prend en entrée des données interventionnelles du système (souris et environnement du fromage) et utilise la découverte causale pour produire un graphe causal mécanisé. Voir l'article pour plus de détails.

Notre deuxième algorithme transforme ce graphe causal mécanisé en un graphe de jeu:

L'algorithme 2 prend en entrée un graphe causal mécanisé et le mappe à un graphe de jeu. Une arête terminale entrante indique une décision, une arête sortante indique une utilité.

En combinant l’algorithme 1 suivi de l’algorithme 2, nous pouvons découvrir des agents à partir d’expériences causales, en les représentant à l’aide de CIDs.

Notre troisième algorithme transforme le graphe de jeu en un graphe causal mécanisé, nous permettant de traduire entre les représentations du jeu et du graphe causal mécanisé sous certaines hypothèses supplémentaires:

L'algorithme 3 prend en entrée un graphe de jeu et le mappe à un graphe causal mécanisé. Une décision indique une arête terminale entrante, une utilité indique une arête terminale sortante.

Meilleurs outils de sécurité pour modéliser les agents IA

Nous avons proposé la première définition causale formelle des agents. Fondée sur la découverte causale, notre idée principale est que les agents sont des systèmes qui adaptent leur comportement en réponse aux changements dans la façon dont leurs actions influencent le monde. En effet, nos Algorithmes 1 et 2 décrivent un processus expérimental précis qui peut aider à évaluer si un système contient un agent.

L’intérêt pour la modélisation causale des systèmes d’IA est en pleine croissance, et notre recherche fonde cette modélisation sur des expériences de découverte causale. Notre article démontre le potentiel de notre approche en améliorant l’analyse de sécurité de plusieurs exemples de systèmes d’IA et montre que la causalité est un cadre utile pour découvrir s’il y a un agent dans un système – une préoccupation majeure pour évaluer les risques de l’IA générale.

Envie d’en savoir plus ? Consultez notre article . Vos commentaires et suggestions sont les bienvenus.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Les modèles corporels 3D ont maintenant du son Meta AI présente un modèle d'intelligence artificielle capable de générer un son spatial 3D précis pour l'ensemble du corps humain.

Le développement constant des systèmes intelligents qui reproduisent et comprennent le comportement humain a conduit ...

AI

Comment définir un problème d'IA

Avec plus de 25 ans d'expérience en génie logiciel, j'ai répondu à de nombreuses questions de développeurs logiciels ...

AI

UC San Diego chercheurs DYffusion Un modèle de diffusion informé par la dynamique pour la prévision spatiotemporelle

Projetant le comportement futur d’un système dynamique, ou prévision de la dynamique, implique de comprendre le...

Apprentissage automatique

Œil dans le ciel avec l'IA l'initiative UCSB vise à pulvériser les menaces spatiales en utilisant NVIDIA RTX

Lorsque les pluies de météores se produisent tous les quelques mois, les spectateurs peuvent regarder une scène éblou...

AI

Construction et déploiement de modèles de CV Retours d'expérience d'un ingénieur en vision par ordinateur

Avec plus de 3 ans d'expérience dans la conception, la construction et le déploiement de modèles de vision par ordina...