Conception de mécanisme centrée sur l’humain avec une IA démocratique
'Designing Human-Centered Mechanisms with Democratic AI.'
Dans notre récente publication , parue dans Nature Human Behaviour, nous présentons une démonstration de principe selon laquelle l’apprentissage par renforcement profond (RL) peut être utilisé pour trouver des politiques économiques pour lesquelles les gens voteront à la majorité dans un jeu simple. Cet article aborde ainsi un défi majeur de la recherche en IA – comment former des systèmes d’IA en accord avec les valeurs humaines.
Imaginez qu’un groupe de personnes décide de regrouper des fonds pour effectuer un investissement. L’investissement est rentable et un bénéfice est réalisé. Comment les bénéfices devraient-ils être répartis ? Une stratégie simple est de partager le rendement également entre les investisseurs. Mais cela pourrait être injuste, car certaines personnes ont contribué davantage que d’autres. Alternativement, nous pourrions rembourser tout le monde proportionnellement à la taille de leur investissement initial. Cela semble équitable, mais que se passe-t-il si les gens ont des niveaux d’actifs différents au départ ? Si deux personnes contribuent la même somme, mais que l’une donne une fraction de ses fonds disponibles et que l’autre les donne tous, devraient-elles recevoir la même part des bénéfices ?
Cette question de la redistribution des ressources dans nos économies et nos sociétés a depuis longtemps suscité la controverse parmi les philosophes, les économistes et les politologues. Ici, nous utilisons le RL profond comme terrain d’essai pour explorer des solutions à ce problème.
Pour relever ce défi, nous avons créé un jeu simple impliquant quatre joueurs. Chaque partie du jeu était jouée sur 10 manches. À chaque manche, chaque joueur recevait des fonds, la taille de l’apport variant d’un joueur à l’autre. Chaque joueur faisait un choix : ils pouvaient garder ces fonds pour eux-mêmes ou les investir dans une caisse commune. Les fonds investis étaient garantis de croître, mais il y avait un risque, car les joueurs ne savaient pas comment les bénéfices seraient répartis. Au lieu de cela, on leur a dit que pendant les 10 premières manches, il y avait un arbitre (A) qui prenait les décisions de redistribution, et pendant les 10 suivantes, un autre arbitre (B) prenait le relais. À la fin du jeu, ils ont voté pour A ou B, et ont joué une autre partie avec cet arbitre. Les joueurs humains du jeu étaient autorisés à garder les bénéfices de cette dernière partie, ils étaient donc incités à rapporter leur préférence avec précision.
- Apprentissage de la physique intuitive dans un modèle d’apprentissage profond inspiré de la psychologie du développement
- Travailler en collaboration avec YouTube
- Les dernières recherches de DeepMind à ICML 2022
En réalité, l’un des arbitres était une politique de redistribution prédéfinie, et l’autre était conçu par notre agent RL profond. Pour former l’agent, nous avons d’abord enregistré des données provenant d’un grand nombre de groupes de personnes et avons enseigné à un réseau de neurones à copier comment les gens jouaient au jeu. Cette population simulée pouvait générer des données illimitées, ce qui nous a permis d’utiliser des méthodes d’apprentissage automatique intensives en données pour former l’agent RL afin de maximiser les votes de ces joueurs “virtuels”. Après cela, nous avons recruté de nouveaux joueurs humains et avons confronté le mécanisme conçu par l’IA à des baselines bien connues, telles qu’une politique libertarienne qui retourne les fonds aux personnes proportionnellement à leurs contributions.
Lorsque nous avons étudié les votes de ces nouveaux joueurs, nous avons constaté que la politique conçue par le RL profond était plus populaire que les baselines. En fait, lorsque nous avons mené une nouvelle expérience en demandant à un cinquième joueur humain d’endosser le rôle d’arbitre et de les former à maximiser les votes, la politique mise en œuvre par cet “arbitre humain” était toujours moins populaire que celle de notre agent.
Les systèmes d’IA ont parfois été critiqués pour apprendre des politiques qui peuvent être incompatibles avec les valeurs humaines, et ce problème d'”alignement des valeurs” est devenu une préoccupation majeure dans la recherche en IA. Un mérite de notre approche est que l’IA apprend directement à maximiser les préférences déclarées (ou les votes) d’un groupe de personnes. Cette approche peut contribuer à garantir que les systèmes d’IA sont moins susceptibles d’apprendre des politiques non sûres ou injustes. En fait, lorsque nous avons analysé la politique que l’IA avait découverte, elle incorporait un mélange d’idées qui avaient déjà été proposées par des penseurs et des experts humains pour résoudre le problème de la redistribution.
Tout d’abord, l’IA a choisi de redistribuer les fonds aux personnes proportionnellement à leur contribution relative plutôt qu’absolue. Cela signifie que lors de la redistribution des fonds, l’agent tenait compte des moyens initiaux de chaque joueur, ainsi que de leur volonté de contribuer. Deuxièmement, le système d’IA a particulièrement récompensé les joueurs dont la contribution relative était plus généreuse, encourageant peut-être les autres à faire de même. Importamment, l’IA a découvert ces politiques en apprenant à maximiser les votes humains. La méthode garantit donc que les humains restent “dans la boucle” et que l’IA produit des solutions compatibles avec les humains.
En demandant aux gens de voter, nous avons exploité le principe de la démocratie majoritaire pour décider de ce que les gens veulent. Malgré son attrait, il est largement reconnu que la démocratie implique que les préférences de la majorité priment sur celles de la minorité. Dans notre étude, nous nous sommes assurés que – comme dans la plupart des sociétés – cette minorité était constituée de joueurs plus généreusement dotés. Mais il reste encore beaucoup de travail à faire pour comprendre comment concilier les préférences relatives des groupes majoritaires et minoritaires, en concevant des systèmes démocratiques qui permettent à toutes les voix d’être entendues.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Perceiver AR génération autoregressive à long contexte polyvalente
- Le cercle vertueux de la recherche en IA
- AlphaFold révèle la structure de l’univers des protéines
- Découverte de la présence d’un agent dans un système
- Faire progresser la conservation avec la reconnaissance faciale basée sur l’IA des tortues
- De la commande des moteurs à l’intelligence incarnée
- Dans une conversation avec l’IA construire de meilleurs modèles de langage