IA générative Le premier brouillon, pas le final

IA générative le premier jet, pas le produit final

Par : Numa Dhamani & Maggie Engler

Il est sûr de dire que l’intelligence artificielle est à la mode. Depuis que l’agent conversationnel ChatGPT d’OpenAI est devenu virale de façon inattendue fin de l’année dernière, l’industrie de la technologie parle d’énormes modèles linguistiques (LLM), la technologie derrière ChatGPT. Google, Meta et Microsoft, ainsi que des startups bien financées comme Anthropic et Cohere, ont tous lancé leurs propres produits LLM. Les entreprises de tous les secteurs se sont précipitées pour intégrer des LLM dans leurs services : OpenAI lui-même compte des clients allant des fintech comme Stripe alimentant les chatbots de service client, aux edtech comme Duolingo et Khan Academy générant du matériel éducatif, en passant par les entreprises de jeux vidéo comme Inworld utilisant des LLM pour fournir des dialogues aux PNJ (personnages non jouables) à la volée. Grâce à ces partenariats et à une adoption généralisée, OpenAI devrait réaliser un chiffre d’affaires annuel de plus d’un milliard de dollars. Il est facile d’être impressionné par la dynamique de ces modèles : le rapport technique sur GPT-4, le dernier des LLM d’OpenAI, montre que le modèle obtient d’excellents scores dans un large éventail de tests académiques et professionnels, y compris l’examen du barreau ; les SAT, LSAT et GRE ; et les examens AP dans des matières telles que l’histoire de l’art, la psychologie, les statistiques, la biologie et l’économie.

Ces résultats éclatants pourraient laisser penser à la fin du travailleur du savoir, mais il y a une différence clé entre GPT-4 et un expert humain : GPT-4 ne comprend pas. Les réponses que GPT-4 et tous les LLM génèrent ne proviennent pas de processus de raisonnement logique, mais d’opérations statistiques. Les grands modèles linguistiques sont entraînés sur de vastes quantités de données provenant d’Internet. Les robots d’exploration Web – des bots qui visitent des millions de pages Web et téléchargent leur contenu – produisent des ensembles de données de texte provenant de toutes sortes de sites : médias sociaux, wikis et forums, sites d’actualités et de divertissement. Ces ensembles de données textuelles contiennent des milliards ou des billions de mots, qui sont pour la plupart agencés en langage naturel : des mots formant des phrases, des phrases formant des paragraphes.

Pour apprendre à produire un texte cohérent, les modèles s’entraînent sur ces données sur des millions d’exemples de complétion de texte. Par exemple, l’ensemble de données pour un modèle donné peut contenir des phrases comme “Il faisait noir et tempétueux” et “La capitale de l’Espagne est Madrid”. Encore et encore, le modèle essaie de prédire le mot suivant après avoir vu “Il faisait noir et” ou “La capitale de l’Espagne est”, puis vérifie si c’est correct ou non, en se mettant à jour chaque fois qu’il se trompe. Au fil du temps, le modèle devient de plus en plus performant dans cette tâche de complétion de texte, de sorte que pour de nombreux contextes – en particulier ceux où le mot suivant est presque toujours le même, comme “La capitale de l’Espagne est” – la réponse considérée comme la plus probable par le modèle est ce qu’un humain considérerait comme la réponse “correcte”. Dans les contextes où le mot suivant peut être plusieurs choses différentes, comme “Il faisait noir et”, le modèle apprendra à sélectionner ce que les humains considéreraient comme un choix raisonnable, peut-être “tempétueux”, mais peut-être aussi “sinistre” ou “moisi”. Cette phase du cycle de vie des LLM, où le modèle s’entraîne sur de grands ensembles de données textuelles, est appelée pré-entraînement. Pour certains contextes, prédire simplement quel mot devrait venir ensuite ne donnera pas nécessairement les résultats souhaités ; le modèle pourrait ne pas être en mesure de comprendre qu’il devrait répondre à des instructions comme “Écris un poème sur un chien” avec un poème plutôt que de continuer avec l’instruction. Pour produire certains comportements tels que le suivi des instructions et améliorer la capacité du modèle à accomplir certaines tâches, telles que l’écriture de code ou la tenue de conversations informelles avec des personnes, les LLM sont ensuite entraînés sur des ensembles de données ciblées conçus pour inclure des exemples de ces tâches.

Cependant, le fait même que les LLM soient entraînés à générer du texte en prédisant les mots suivants probables conduit à un phénomène connu sous le nom d’hallucinations, un piège technique bien documenté où les LLM inventent de manière confiante des informations incorrectes et des explications lorsqu’elles sont sollicitées. La capacité des LLM à prédire et à compléter du texte repose sur les schémas appris pendant le processus de formation, mais lorsque confrontés à des complétions incertaines ou multiples, les LLM sélectionnent l’option qui semble la plus plausible, même si elle ne repose sur aucune réalité.

Par exemple, lorsque Google a lancé son chatbot, Bard, il a commis une erreur factuelle lors de sa première démonstration publique. Bard a déclaré à juste titre que le télescope spatial James Webb (JWST) « a pris les toutes premières photos d’une planète en dehors de notre propre système solaire ». Mais en réalité, la première image d’une exoplanète a été prise en 2004 par le Very Large Telescope (VLT) tandis que le JWST n’a été lancé qu’en 2021.

Hallucinations ne sont pas les seules lacunes des LLMs – la formation sur de grandes quantités de données Internet entraîne également un biais et des problèmes de droits d’auteur. Tout d’abord, parlons du biais, qui fait référence à des résultats disparates d’un modèle selon des attributs d’identité personnelle, tels que la race, le genre, la classe sociale ou la religion. Étant donné que les LLMs apprennent des caractéristiques et des schémas à partir de données Internet, ils héritent malheureusement des préjugés humains, des injustices historiques et des associations culturelles. Alors que les humains sont biaisés, les LLMs sont encore pires car ils ont tendance à amplifier les biais présents dans les données d’entraînement. Pour les LLMs, les hommes sont des médecins, des ingénieurs et des PDG performants, les femmes sont des réceptionnistes et des infirmières belles et serviables, et les personnes LGBTQ n’existent pas.

La formation des LLMs sur des quantités insondables de données Internet soulève également des questions concernant les problèmes de droits d’auteur. Les droits d’auteur sont des droits exclusifs sur une œuvre créative, où le titulaire du droit d’auteur est la seule entité ayant le pouvoir de reproduire, distribuer, exposer ou exécuter l’œuvre pendant une durée définie.

En ce moment, la principale préoccupation juridique concernant les LLMs ne se concentre pas sur la copyrightabilité de leurs résultats, mais plutôt sur la violation potentielle des droits d’auteur existants des artistes et écrivains dont les créations contribuent à leurs ensembles de données d’entraînement. La Guilde des auteurs a appelé OpenAI, Google, Meta et Microsoft, entre autres, à consentir, à créditer et à indemniser équitablement les auteurs pour l’utilisation de matériaux protégés par le droit d’auteur dans la formation des LLMs. Certains auteurs et éditeurs ont également pris cette affaire en main.

Les développeurs de LLMs sont actuellement confrontés à plusieurs poursuites judiciaires de la part de particuliers et de groupes concernant les problèmes de droits d’auteur – Sarah Silverman, une comédienne et actrice, a rejoint un groupe d’auteurs et d’éditeurs intentant une action en justice contre OpenAI, affirmant qu’ils n’ont jamais donné leur autorisation pour l’utilisation de leurs livres protégés par le droit d’auteur dans la formation des LLMs.

Alors que les préoccupations concernant les hallucinations, le biais et les droits d’auteur sont parmi les problèmes les plus documentés associés aux LLMs, ce ne sont en aucun cas les seules préoccupations. Pour n’en nommer que quelques-unes, les LLMs codent des informations sensibles, produisent des résultats indésirables ou toxiques et peuvent être exploités par des adversaires. Indubitablement, les LLMs excellent dans la génération de textes cohérents et contextuellement pertinents et doivent certainement être exploités pour améliorer l’efficacité, entre autres avantages, dans une multitude de tâches et de scénarios.

Les chercheurs travaillent également à résoudre certains de ces problèmes, mais la meilleure façon de contrôler les résultats du modèle reste une question de recherche ouverte, donc les LLMs existants sont loin d’être infaillibles. Leurs résultats doivent toujours être examinés pour leur exactitude, leur factualité et leurs biais potentiels. Si vous obtenez un résultat qui semble trop beau pour être vrai, il vous faut être prudent et examiner plus en détail. La responsabilité incombe aux utilisateurs de valider et de réviser tout texte généré à partir des LLMs, ou comme nous aimons le dire, de l’IA génératrice : c’est votre première ébauche, pas le résultat final.

Maggie Engler est une ingénieure et chercheuse travaillant actuellement sur la sécurité des modèles de langage larges. Elle se concentre sur l’application de la science des données et de l’apprentissage automatique aux abus dans l’écosystème en ligne et est une experte en cybersécurité et en confiance et sécurité. Maggie est une éducatrice et communicatrice engagée, enseignant en tant qu’instructrice adjointe à l’École d’information de l’Université du Texas à Austin.

[Numa Dhamani](https://www.linkedin.com/in/numadhamani/) est une ingénieure et chercheuse travaillant à l’intersection de la technologie et de la société. Elle est une experte en traitement du langage naturel avec une expertise dans les opérations d’influence, la sécurité et la confidentialité. Numa a développé des systèmes d’apprentissage automatique pour des entreprises du Fortune 500 et des plateformes de médias sociaux, ainsi que pour des start-ups et des organisations à but non lucratif. Elle a conseillé des entreprises et des organisations, a été chercheuse principale sur les programmes de recherche du Département de la Défense des États-Unis et a contribué à plusieurs revues internationales à comité de lecture.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

La Chine rédige des règles pour la technologie de reconnaissance faciale

L'Administration du cyberespace de la Chine a publié des règles provisoires régissant l'utilisation de la technologie...

AI

Créez une solution de surveillance et de rapports centralisée pour Amazon SageMaker en utilisant Amazon CloudWatch

Dans cet article, nous présentons un tableau de bord d'observabilité inter-comptes qui offre une vue centralisée pour...

AI

4 géants de la technologie - OpenAI, Google, Microsoft et Anthropic s'unissent pour une IA sûre

Dans une décision historique, quatre des plus grands noms dans le domaine de l’intelligence artificielle s̵...

AI

Les universités forment des ingénieurs pour le futur quantique

Les établissements d'enseignement supérieur commencent le processus d'éducation des futurs ingénieurs sur des sujets ...

AI

Découvrez Wonder3D une nouvelle méthode d'intelligence artificielle permettant de générer efficacement des maillages texturés de haute-fidélité à partir d'images à vue unique.

Reconstruire la géométrie 3D à partir d’une seule image représente une entreprise fondamentale dans les domaine...