Conception de mécanisme centrée sur l’humain avec une IA démocratique

'Designing Human-Centered Mechanisms with Democratic AI.'

Dans notre récente publication , parue dans Nature Human Behaviour, nous présentons une démonstration de principe selon laquelle l’apprentissage par renforcement profond (RL) peut être utilisé pour trouver des politiques économiques pour lesquelles les gens voteront à la majorité dans un jeu simple. Cet article aborde ainsi un défi majeur de la recherche en IA – comment former des systèmes d’IA en accord avec les valeurs humaines.

Imaginez qu’un groupe de personnes décide de regrouper des fonds pour effectuer un investissement. L’investissement est rentable et un bénéfice est réalisé. Comment les bénéfices devraient-ils être répartis ? Une stratégie simple est de partager le rendement également entre les investisseurs. Mais cela pourrait être injuste, car certaines personnes ont contribué davantage que d’autres. Alternativement, nous pourrions rembourser tout le monde proportionnellement à la taille de leur investissement initial. Cela semble équitable, mais que se passe-t-il si les gens ont des niveaux d’actifs différents au départ ? Si deux personnes contribuent la même somme, mais que l’une donne une fraction de ses fonds disponibles et que l’autre les donne tous, devraient-elles recevoir la même part des bénéfices ?

Cette question de la redistribution des ressources dans nos économies et nos sociétés a depuis longtemps suscité la controverse parmi les philosophes, les économistes et les politologues. Ici, nous utilisons le RL profond comme terrain d’essai pour explorer des solutions à ce problème.

Pour relever ce défi, nous avons créé un jeu simple impliquant quatre joueurs. Chaque partie du jeu était jouée sur 10 manches. À chaque manche, chaque joueur recevait des fonds, la taille de l’apport variant d’un joueur à l’autre. Chaque joueur faisait un choix : ils pouvaient garder ces fonds pour eux-mêmes ou les investir dans une caisse commune. Les fonds investis étaient garantis de croître, mais il y avait un risque, car les joueurs ne savaient pas comment les bénéfices seraient répartis. Au lieu de cela, on leur a dit que pendant les 10 premières manches, il y avait un arbitre (A) qui prenait les décisions de redistribution, et pendant les 10 suivantes, un autre arbitre (B) prenait le relais. À la fin du jeu, ils ont voté pour A ou B, et ont joué une autre partie avec cet arbitre. Les joueurs humains du jeu étaient autorisés à garder les bénéfices de cette dernière partie, ils étaient donc incités à rapporter leur préférence avec précision.

En réalité, l’un des arbitres était une politique de redistribution prédéfinie, et l’autre était conçu par notre agent RL profond. Pour former l’agent, nous avons d’abord enregistré des données provenant d’un grand nombre de groupes de personnes et avons enseigné à un réseau de neurones à copier comment les gens jouaient au jeu. Cette population simulée pouvait générer des données illimitées, ce qui nous a permis d’utiliser des méthodes d’apprentissage automatique intensives en données pour former l’agent RL afin de maximiser les votes de ces joueurs “virtuels”. Après cela, nous avons recruté de nouveaux joueurs humains et avons confronté le mécanisme conçu par l’IA à des baselines bien connues, telles qu’une politique libertarienne qui retourne les fonds aux personnes proportionnellement à leurs contributions.

Lorsque nous avons étudié les votes de ces nouveaux joueurs, nous avons constaté que la politique conçue par le RL profond était plus populaire que les baselines. En fait, lorsque nous avons mené une nouvelle expérience en demandant à un cinquième joueur humain d’endosser le rôle d’arbitre et de les former à maximiser les votes, la politique mise en œuvre par cet “arbitre humain” était toujours moins populaire que celle de notre agent.

Les systèmes d’IA ont parfois été critiqués pour apprendre des politiques qui peuvent être incompatibles avec les valeurs humaines, et ce problème d'”alignement des valeurs” est devenu une préoccupation majeure dans la recherche en IA. Un mérite de notre approche est que l’IA apprend directement à maximiser les préférences déclarées (ou les votes) d’un groupe de personnes. Cette approche peut contribuer à garantir que les systèmes d’IA sont moins susceptibles d’apprendre des politiques non sûres ou injustes. En fait, lorsque nous avons analysé la politique que l’IA avait découverte, elle incorporait un mélange d’idées qui avaient déjà été proposées par des penseurs et des experts humains pour résoudre le problème de la redistribution.

Tout d’abord, l’IA a choisi de redistribuer les fonds aux personnes proportionnellement à leur contribution relative plutôt qu’absolue. Cela signifie que lors de la redistribution des fonds, l’agent tenait compte des moyens initiaux de chaque joueur, ainsi que de leur volonté de contribuer. Deuxièmement, le système d’IA a particulièrement récompensé les joueurs dont la contribution relative était plus généreuse, encourageant peut-être les autres à faire de même. Importamment, l’IA a découvert ces politiques en apprenant à maximiser les votes humains. La méthode garantit donc que les humains restent “dans la boucle” et que l’IA produit des solutions compatibles avec les humains.

En demandant aux gens de voter, nous avons exploité le principe de la démocratie majoritaire pour décider de ce que les gens veulent. Malgré son attrait, il est largement reconnu que la démocratie implique que les préférences de la majorité priment sur celles de la minorité. Dans notre étude, nous nous sommes assurés que – comme dans la plupart des sociétés – cette minorité était constituée de joueurs plus généreusement dotés. Mais il reste encore beaucoup de travail à faire pour comprendre comment concilier les préférences relatives des groupes majoritaires et minoritaires, en concevant des systèmes démocratiques qui permettent à toutes les voix d’être entendues.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

LLMs génératifs en cache | Économiser les coûts d'API

Introduction L’IA générative a tellement prévalu que la plupart d’entre nous travailleront déjà sur des a...

AI

L'importance des données dans l'apprentissage automatique Alimenter la révolution de l'IA

Exploration du rôle vital des données dans l'avancement de l'apprentissage automatique et l'impulsion de la révolutio...

AI

La fonctionnalité de détection d'usurpation protège les marques et les personnalités des faux comptes sur les médias sociaux.

Une entreprise canadienne a intégré une fonctionnalité de protection contre l'usurpation d'identité dans sa plateform...

AI

Comment les développeurs de logiciels peuvent-ils être utiles avec ChatGPT et Bard AI?

Auparavant, les développeurs passaient beaucoup de temps à coder ou à déboguer, mais maintenant, grâce à l'aide de Ch...

AI

Libérer la puissance de l'entrée en langage naturel dans ChatGPT

Optimisez les capacités de ChatGPT avec une entrée en langage naturel. Profitez d'interactions réalistes et de répons...

AI

Les robots dont nous avions peur sont déjà là

La révolution de l'automatisation tant attendue a commencé. Les robots sont prêts à utiliser des chariots élévateurs ...