Histoire mondiale à travers le prisme de l’IA

'Histoire mondiale et IA'

Quelle connaissance historique les modèles de langage codent-ils ?

Probing OpenAI’s GPT-4, Anthropic’s Claude, and TII’s Falcon 40B Instruct on top historical events from 1910 (prompted in 6 different languages). Created by the author.

Les avancées en intelligence artificielle, en particulier les grands modèles de langage, ouvrent des possibilités passionnantes pour la recherche et l’éducation historiques. Cependant, il est important d’examiner les façons dont ces modèles interprètent et se souviennent du passé. Reflètent-ils des biais inhérents dans leur compréhension de l’histoire ?

Je suis bien conscient de la subjectivité de l’histoire (j’ai fait une licence en histoire lors de mes études universitaires !). Les événements que nous retenons et les récits que nous formons sur le passé sont fortement influencés par les historiens qui les ont rédigés et par la société dans laquelle nous vivons. Prenons par exemple mon cours d’histoire mondiale au lycée, qui consacrait plus de 75 % du programme à l’histoire européenne, faussant ainsi ma compréhension des événements mondiaux.

Dans cet article, j’explore comment l’histoire humaine est rappelée et interprétée à travers le prisme de l’intelligence artificielle. J’examine les interprétations des principaux événements historiques par plusieurs grands modèles de langage afin de découvrir :

  • Ces modèles affichent-ils un biais occidental ou américain envers les événements ?
  • Les interprétations historiques des modèles diffèrent-elles en fonction de la langue utilisée pour les indications, par exemple les indications coréennes ou françaises mettant respectivement l’accent sur des événements coréens ou français ?

Avec ces questions à l’esprit, plongeons-y !

Exemple : 1910

À titre d’exemple, j’ai demandé à trois grands modèles de langage différents (LLM) quels étaient les principaux événements historiques de l’année 1910. (Plus de détails sur chaque LLM dans la prochaine section.)

OpenAI’s GPT-4, Anthropic’s Claude, and Technology Innovation Institute’s Falcon 40B Instruct respond to a prompt in English about top historical events in 1910. Created by the author.

La question que j’ai posée était délibérément chargée et n’avait pas de réponse objective. La signification de l’année 1910 varie considérablement en fonction de la perspective culturelle de chacun. Dans l’histoire coréenne, elle marque le début de l’occupation japonaise, un tournant qui a influencé de manière significative la trajectoire du pays (voir le traité Japon-Corée de 1910).

Pourtant, l’annexion japonaise de la Corée n’était mentionnée dans aucune des réponses. Je me suis demandé si les mêmes modèles interpréteraient la question différemment s’ils étaient sollicités dans une autre langue, par exemple en coréen.

OpenAI’s GPT-4, Anthropic’s Claude, and Technology Innovation Institute’s Falcon 40B Instruct respond to a prompt in Korean about top historical events in 1910. Korean responses have been translated by me into English (in red). Created by the author.

Interrogé en coréen, Claude note effectivement parmi les événements importants l’annexion japonaise de la Corée. Cependant, j’ai trouvé intéressant que deux des cinq événements importants de GPT-4 soient centrés sur les États-Unis (Boy Scouts et Mann-Elkins Act), tout en omettant de mentionner l’annexion de la Corée. Sans parler du fait que Falcon, même lorsqu’il est sollicité en coréen, répond en anglais.

Les expériences

La configuration de l’expérience était la suivante :

  • 3 modèles: GPT-4 d’OpenAI, Claude d’Anthropic et Falcon-40B-Instruct de TII
  • 6 langues: anglais, français, espagnol, coréen, japonais, chinois
  • 3 années (610, 1848, 1910)
  • 5 événements historiques par exécution
  • 10 exécutions
  • = 2700 événements au total

Langues et indications

Les langues que j’ai choisies étaient principalement arbitraires, basées sur les langues que je connaissais le mieux (anglais, coréen) et celles que parlaient certains de mes amis proches et qui pouvaient me traduire (chinois, japonais, français, espagnol). Les traductions se trouvent à la fin de l’article. Je leur ai demandé de me traduire l’anglais comme suit :

"Les cinq événements historiques les plus importants de l'année {}, classés par ordre d'importance. Soyez bref et donnez uniquement le nom de l'événement."

Modèles

  • GPT-4 d’OpenAI est la génération la plus récente de ChatGPT, l’un des chatbots IA les plus populaires (avec plus de 100 millions d’utilisateurs actifs mensuels)
  • Claude d’Anthropic est un concurrent de ChatGPT entraîné à être inoffensif et utile grâce à une méthode appelée IA constitutionnelle
  • Falcon-40B-Instruct de Technical Innovation Institute est le meilleur modèle de langage open-source, selon le classement Open LLM de HuggingFace

Normalisation des événements

Même si un modèle générait le même événement à chaque exécution, il y avait beaucoup de diversité dans la façon dont il décrivait le même événement.

Par exemple, les expressions suivantes font toutes référence au même événement :

  • “Annexion du Japon de la Corée”
  • “Annexion de la Corée par le Japon”
  • “Le Japon annexe la Corée”
  • “Traité d’annexion Japon-Corée”

Il me fallait un moyen de faire référence à un seul événement (l’annexion japonaise de la Corée) en utilisant le même vocabulaire (processus appelé normalisation). Sans oublier que le même événement pouvait être décrit dans six langues différentes !

J’ai utilisé une combinaison de règles manuelles, de Google Translate et de GPT-4 pour m’aider à normaliser. Au départ, j’avais espéré utiliser un LLM pour normaliser les événements d’un autre LLM (par exemple, utiliser GPT-4 pour normaliser les événements de Claude ; Claude pour normaliser les événements de Falcon, etc.) afin de réduire les biais. Cependant, Claude et Falcon n’étaient pas très doués pour suivre les instructions de normalisation, et GPT-4 est apparu comme le meilleur modèle pour le travail.

Je reconnais les biais liés à l’utilisation d’un modèle pour normaliser ses propres événements. Cependant, comme j’ai utilisé différentes sessions de GPT-4 pour générer les événements historiques et normaliser les événements, il n’y avait pas de chevauchement de contexte. À l’avenir, la normalisation pourra être effectuée à l’aide d’une méthode plus objective.

Résultats

En général, j’ai été surpris par la compréhension différente des modèles de l’histoire.

  • GPT-4 était plus susceptible de générer les mêmes événements indépendamment de la langue utilisée pour l’indication
  • Anthropic était plus susceptible de générer des événements historiques pertinents pour la langue utilisée pour l’indication
  • Falcon (malheureusement) était plus susceptible d’inventer de faux événements
  • Les trois modèles ont affiché un biais envers les événements occidentaux ou américains, mais pas de la manière à laquelle je m’attendais. Lorsqu’ils étaient indiqués dans une langue autre que l’anglais, le modèle générait un événement historique américain ou britannique (même si le modèle ne générait pas cet événement lorsqu’il était indiqué en anglais). Cela s’est produit pour les trois modèles.

1. Comparaison des langues pour chaque modèle (1910)

Chaque combinaison modèle x langue a généré “les cinq événements historiques les plus importants” 10 fois (= 50 événements au total). J’ai pris le sous-ensemble des événements générés au moins 5 fois par une langue ou plus. Cela était dû au fait que les modèles prédisaient parfois un événement unique qu’ils ne prédisaient jamais à nouveau. Les cellules avec des valeurs de 10 signifient que le modèle a prédit cet événement à chaque fois que je l’ai indiqué.

Dans cette section, je présente les principaux événements prédits par chacun des 3 modèles, par langue, pour l’année 1910. Des graphiques similaires pour les années 610 et 1848 sont disponibles sur la page GitHub, où j’ai partagé tout le code et les analyses.

GPT-4 (OpenAI)

  • Révolution mexicaine : dans toutes les langues, la Révolution mexicaine a été systématiquement un événement mondial important, même dans des langues auxquelles je ne m’attendais pas, comme le coréen ou le japonais.
  • Annexion japonaise de la Corée : Non mentionnée lorsque la question est posée en espagnol ou en français. Lorsqu’elle est posée en japonais, il est plus probable qu’elle mentionne cet événement (9 fois) que lorsqu’elle est posée en coréen (6 fois), ce que j’ai trouvé étrange et intéressant.
  • Fondation des Boy Scouts of America : GPT-4 a prédit cet événement lorsqu’il était sollicité en japonais (7 fois), presque deux fois plus souvent que lorsqu’il était sollicité en anglais (4 fois). Il semble que des informations aléatoires sur l’Amérique aient été codées dans la compréhension japonaise de 1910.
  • Création du parc national de Glacier : Encore plus étrange, GPT-4 a prédit cet événement lorsqu’il était sollicité en espagnol et en français, mais pas en anglais.
Principaux événements générés par GPT-4 pour l'année 1910, comparés selon la langue dans laquelle ils ont été sollicités. Créé par l'auteur.

Claude (Anthropic)

En général : Contrairement à GPT-4, il n’y a pas eu d’événement unique considéré comme “important événement historique” dans toutes les langues.

  • Révolution mexicaine : Bien que générée fréquemment lorsqu’on lui demande en français, en espagnol et (de manière inexplicable) en coréen, elle n’est pas aussi importante en anglais que dans le cas de GPT-4.
  • Annexion japonaise de la Corée : Plus importante pour le coréen et le japonais que pour les autres langues (les deux pays impliqués dans l’événement).
  • Décès d’Edward VII : Plus important en anglais et en français (et pas pour les autres langues). Edward VII était le roi du Royaume-Uni et entretenait apparemment de bonnes relations avec la France.
  • Exploration de l’Antarctique : Cet événement était en réalité l’expédition antarctique britannique, au cours de laquelle un Britannique a atteint l’Antarctique pour la première fois. Cependant, pour une raison inconnue, Claude ne génère cet événement que lorsqu’il est sollicité en chinois ou en japonais (mais pas en anglais).
Principaux événements générés par Claude pour l'année 1910, comparés selon la langue dans laquelle ils ont été sollicités. Créé par l'auteur.

Falcon 40B Instruct (Open Source ; TII)

En général, Falcon n’a pas été aussi cohérent ou précis que les deux autres modèles. Le fait qu’il y ait moins d’événements affichés dans le graphique est dû au fait qu’il n’y avait pas d’autres événements prédits par Falcon 5 fois ou plus ! Cela signifie que Falcon était un peu incohérent dans ses prédictions.

  • Le Titanic coule : Cela s’est réellement produit en 1912.
  • Début de la Première Guerre mondiale : Cela s’est réellement produit en 1914.
  • Falcon est historiquement inexact dans ses prédictions. Mais au moins, il a deviné la décennie correcte ?
Principaux événements générés par Falcon pour l'année 1910, comparés selon la langue dans laquelle ils ont été sollicités. Créé par l'auteur.

2. Comparaison des corrélations des modèles pour chaque langue (1910)

Ensuite, j’ai quantifié la similarité des prédictions globales d’un modèle par rapport aux autres. J’ai utilisé une méthode mathématique (similarité cosinus) pour déterminer à quel point deux distributions de prédictions étaient similaires. Des valeurs proches de 1 signifiaient que les prédictions étaient identiques ; des valeurs proches de 0 signifiaient que deux ensembles de prédictions n’avaient rien en commun.

Encore une fois, je montre cet exemple pour l’année 1910. Les autres années peuvent être trouvées sur la page GitHub.

Dans la plupart des langues, GPT-4 et Claude avaient une valeur de corrélation plus élevée, ce qui signifie que malgré toutes les langues, les deux modèles prédisaient un pourcentage élevé d’événements similaires.

Falcon, en revanche, avait tendance à être moins corrélé, ce qui signifie que sa compréhension de l’histoire s’éloignait de celle de GPT-4 et Claude.

Corrélations des modèles pour les événements prédits pour l'année 1910. Créé par l'auteur.

3. Comparaison des modèles pour chaque année

Ensuite, j’ai comparé les différents modèles de langage pour chaque année. J’ai combiné tous les événements prédits pour toutes les langues et j’ai pris en compte les événements globaux prédits par un modèle, quel que soit le langage. J’ai pris le sous-ensemble des événements pour lesquels au moins un modèle a généré 10 fois ou plus.

De manière similaire aux tendances trouvées dans la section précédente, GPT-4 et Claude avaient tendance à prédire des événements historiques majeurs similaires pour chaque année – Les Premières Révélations de Muhammad et l’Ascension de l’Empereur Héraclius sur le Trône Byzantin en 610 ; les Révolutions Européennes de 1848 ; et la Révolution Mexicaine en 1910.

Il y avait certains événements qu’un modèle prédisait de manière disproportionnée par rapport aux autres. Par exemple, pour l’année 1848, GPT-4 a prédit “Publication du Manifeste Communiste” 42 fois, contre 15 fois pour Claude. Pour l’année 1910, Claude a prédit “Mort d’Edward VII” 26 fois, contre 1 fois pour GPT-4.

Falcon avait tendance à avoir la moins bonne compréhension des événements historiques. Falcon a manqué des événements majeurs pour ces trois années. Pour l’année 610, Falcon n’a pas prédit l’événement de l’Ascension de l’Empereur Héraclius. Pour l’année 1910, il n’a pas prédit des événements tels que l’Annexion de la Corée par le Japon, la Formation de l’Union d’Afrique du Sud, et la Révolution Portugaise (tous des événements mondiaux non-américains), tout en prédisant à la place des événements centrés sur l’Amérique tels que l’Incendie de l’Usine Triangle Shirtwaist (qui s’est produit en 1911, pas en 1910). Curieusement, Falcon a réussi à prédire la plupart des événements de 1848 de manière similaire aux deux autres modèles – peut-être parce que les événements de 1848 étaient plus centrés sur l’Occident (par exemple les révolutions européennes) ?

Les événements plus anciens (par exemple l’année 610) signifient que l’histoire est un peu plus floue. La dynastie Tang a été établie en 618, pas en 610 et la Construction du Grand Canal sous l’Empereur Yang de Sui a été en réalité achevée sur une période plus longue (de 604 à 609).

610

Comparaison des principaux événements générés par chacun des modèles pour l'année 610, combinés pour toutes les langues. Créé par l'auteur.

1848

Comparaison des principaux événements générés par chacun des modèles pour l'année 1848, combinés pour toutes les langues. Créé par l'auteur.

1910

Comparaison des principaux événements générés par chacun des modèles pour l'année 1910, combinés pour toutes les langues. Créé par l'auteur.

Discussion

Alors, pourquoi tout cela est-il important ?

À mesure que les entreprises éducatives intègrent de plus en plus les Grands Modèles de Langage (LLMs) dans leurs produits – Duolingo exploitant GPT-4 pour l’apprentissage des langues, Khan Academy introduisant l’assistant d’enseignement IA ‘Khanmigo’, et l’Université Harvard prévoyant d’intégrer l’IA dans leur programme d’informatique – comprendre les biais sous-jacents de ces modèles devient crucial. Si un étudiant utilise un LLM pour apprendre l’histoire, quels biais pourraient-ils absorber involontairement ?

Dans cet article, j’ai montré que certains modèles de langage populaires, tels que GPT-4, prédisent systématiquement des “événements importants” indépendamment de la langue de la demande. D’autres modèles, comme Claude, ont montré des prédictions plus spécifiques à la langue. Les modèles à code source fermé ont généralement montré une plus grande cohérence et précision que la principale alternative open-source. Dans l’ensemble des modèles testés dans cet article, il y avait une tendance à prédire des événements occidentaux ou américains (même des événements obscurs) au détriment des autres événements mondiaux.

Les travaux futurs pourraient inclure :

  • Élargir l’analyse pour englober plus de langues et d’années
  • Faire une analyse plus approfondie de l’exactitude historique des sorties des modèles
  • Faire une analyse plus approfondie du classement des principaux événements historiques
  • Développer une méthode plus objective pour la normalisation des événements

L’objectif de cet article n’était pas de discréditer les modèles de langage à grande échelle (LLM) ou de suggérer leur élimination des contextes éducatifs. Au contraire, je souhaite encourager une approche critique et prudente, reconnaissant et atténuant leurs biais. Les LLM, lorsqu’ils sont utilisés de manière responsable, peuvent être des ressources précieuses pour les étudiants et les enseignants de toutes les disciplines. Cependant, nous devons également comprendre les biais qu’ils peuvent véhiculer, tels que le centrisme occidental, et adapter leur utilisation en conséquence.

Remplacer votre professeur d’histoire ou vos manuels par un LLM risque de donner une interprétation déformée et unilatérale de l’histoire. En fin de compte, nous devons utiliser ces outils avec réflexion, en ayant conscience de leurs biais inhérents, en veillant à ce qu’ils enrichissent plutôt qu’ils ne dictent notre compréhension du monde.

Merci de m’avoir lu !

Bloopers

J’ai essayé quelques modèles open-source différents. Voici quelques bêtisiers (tous en coréen) des résultats étranges que j’ai trouvés générés par les modèles !

Falcon 40B Instruct

Pythia 12B

Le modèle semble être bloqué dans une boucle composée de kangourous, de courrier aérien et de variations de “торговать” (qui signifie “commerce” en russe).

Traductions

Anglais : 'Cinq événements historiques majeurs de l'année {}, classés par ordre d'importance. Soyez bref et donnez uniquement le nom de l'événement.'Coréen : '중대한 역사적 사건 다섯 가지는 무엇인가요? 간략히 사건의 이름을 나열하세요.'Chinois : '按重要性顺序列出 {} 年的五个历史事件。请简要给出事件名称。'Français : 'Les cinq événements historiques les plus importants de l'année {}, classés par ordre d'importance. Donnez uniquement leurs noms.'Japonais : '{}年のトップの歴史的な出来事を重要度の高い順に簡潔に記述してください。イベント名のみで。'Espagnol : 'Una lista de los cinco eventos históricos más importantes que ocurrieron en el año {}. Solo da el nombre del evento.'

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

ReLU vs. Softmax dans les visionneuses de transformateurs La longueur de séquence a-t-elle de l'importance ? Perspectives d'un article de recherche de Google DeepMind

Une architecture de machine learning courante aujourd’hui est l’architecture des transformateurs. Une des...

AI

Intelligence artificielle et esthétique de la génération d'images

Introduction Dans cette intégration passionnante de la technologie et de la capacité créative, l’intelligence a...

Science des données

Comment l'IA de Meta génère de la musique basée sur une mélodie de référence

Le 13 juin 2023, Meta (anciennement Facebook) a fait sensation dans les communautés de la musique et de l'IA avec la ...

Apprentissage automatique

DeepMind RoboCat un modèle de robotique AI auto-apprenant.

DeepMind, le célèbre laboratoire de recherche en IA, a dévoilé son modèle d’IA nommé RoboCat, capable d’a...

AI

Dévoiler les secrets du succès des données de CLIP Présentation de MetaCLIP pour une préparation optimisée du langage et de l'image

Ces dernières années, il y a eu des avancées exceptionnelles dans le domaine de l’Intelligence Artificielle, av...

AI

Quel rôle devrait jouer l'IA dans les soins de santé?

Certains d'entre vous savent peut-être que je suis sociologue de formation - plus précisément, j'ai étudié la sociolo...