IA générative Le premier brouillon, pas le final
IA générative le premier jet, pas le produit final
Par : Numa Dhamani & Maggie Engler
Il est sûr de dire que l’intelligence artificielle est à la mode. Depuis que l’agent conversationnel ChatGPT d’OpenAI est devenu virale de façon inattendue fin de l’année dernière, l’industrie de la technologie parle d’énormes modèles linguistiques (LLM), la technologie derrière ChatGPT. Google, Meta et Microsoft, ainsi que des startups bien financées comme Anthropic et Cohere, ont tous lancé leurs propres produits LLM. Les entreprises de tous les secteurs se sont précipitées pour intégrer des LLM dans leurs services : OpenAI lui-même compte des clients allant des fintech comme Stripe alimentant les chatbots de service client, aux edtech comme Duolingo et Khan Academy générant du matériel éducatif, en passant par les entreprises de jeux vidéo comme Inworld utilisant des LLM pour fournir des dialogues aux PNJ (personnages non jouables) à la volée. Grâce à ces partenariats et à une adoption généralisée, OpenAI devrait réaliser un chiffre d’affaires annuel de plus d’un milliard de dollars. Il est facile d’être impressionné par la dynamique de ces modèles : le rapport technique sur GPT-4, le dernier des LLM d’OpenAI, montre que le modèle obtient d’excellents scores dans un large éventail de tests académiques et professionnels, y compris l’examen du barreau ; les SAT, LSAT et GRE ; et les examens AP dans des matières telles que l’histoire de l’art, la psychologie, les statistiques, la biologie et l’économie.
Ces résultats éclatants pourraient laisser penser à la fin du travailleur du savoir, mais il y a une différence clé entre GPT-4 et un expert humain : GPT-4 ne comprend pas. Les réponses que GPT-4 et tous les LLM génèrent ne proviennent pas de processus de raisonnement logique, mais d’opérations statistiques. Les grands modèles linguistiques sont entraînés sur de vastes quantités de données provenant d’Internet. Les robots d’exploration Web – des bots qui visitent des millions de pages Web et téléchargent leur contenu – produisent des ensembles de données de texte provenant de toutes sortes de sites : médias sociaux, wikis et forums, sites d’actualités et de divertissement. Ces ensembles de données textuelles contiennent des milliards ou des billions de mots, qui sont pour la plupart agencés en langage naturel : des mots formant des phrases, des phrases formant des paragraphes.
- La science de la décision rencontre le design
- Quantification et cie. Réduction des temps d’inférence sur les LLMs de 80%
- Comment Woodpecker révolutionne la précision de l’IA dans les modèles de langage?
Pour apprendre à produire un texte cohérent, les modèles s’entraînent sur ces données sur des millions d’exemples de complétion de texte. Par exemple, l’ensemble de données pour un modèle donné peut contenir des phrases comme “Il faisait noir et tempétueux” et “La capitale de l’Espagne est Madrid”. Encore et encore, le modèle essaie de prédire le mot suivant après avoir vu “Il faisait noir et” ou “La capitale de l’Espagne est”, puis vérifie si c’est correct ou non, en se mettant à jour chaque fois qu’il se trompe. Au fil du temps, le modèle devient de plus en plus performant dans cette tâche de complétion de texte, de sorte que pour de nombreux contextes – en particulier ceux où le mot suivant est presque toujours le même, comme “La capitale de l’Espagne est” – la réponse considérée comme la plus probable par le modèle est ce qu’un humain considérerait comme la réponse “correcte”. Dans les contextes où le mot suivant peut être plusieurs choses différentes, comme “Il faisait noir et”, le modèle apprendra à sélectionner ce que les humains considéreraient comme un choix raisonnable, peut-être “tempétueux”, mais peut-être aussi “sinistre” ou “moisi”. Cette phase du cycle de vie des LLM, où le modèle s’entraîne sur de grands ensembles de données textuelles, est appelée pré-entraînement. Pour certains contextes, prédire simplement quel mot devrait venir ensuite ne donnera pas nécessairement les résultats souhaités ; le modèle pourrait ne pas être en mesure de comprendre qu’il devrait répondre à des instructions comme “Écris un poème sur un chien” avec un poème plutôt que de continuer avec l’instruction. Pour produire certains comportements tels que le suivi des instructions et améliorer la capacité du modèle à accomplir certaines tâches, telles que l’écriture de code ou la tenue de conversations informelles avec des personnes, les LLM sont ensuite entraînés sur des ensembles de données ciblées conçus pour inclure des exemples de ces tâches.
Cependant, le fait même que les LLM soient entraînés à générer du texte en prédisant les mots suivants probables conduit à un phénomène connu sous le nom d’hallucinations, un piège technique bien documenté où les LLM inventent de manière confiante des informations incorrectes et des explications lorsqu’elles sont sollicitées. La capacité des LLM à prédire et à compléter du texte repose sur les schémas appris pendant le processus de formation, mais lorsque confrontés à des complétions incertaines ou multiples, les LLM sélectionnent l’option qui semble la plus plausible, même si elle ne repose sur aucune réalité.
Par exemple, lorsque Google a lancé son chatbot, Bard, il a commis une erreur factuelle lors de sa première démonstration publique. Bard a déclaré à juste titre que le télescope spatial James Webb (JWST) « a pris les toutes premières photos d’une planète en dehors de notre propre système solaire ». Mais en réalité, la première image d’une exoplanète a été prise en 2004 par le Very Large Telescope (VLT) tandis que le JWST n’a été lancé qu’en 2021.
Hallucinations ne sont pas les seules lacunes des LLMs – la formation sur de grandes quantités de données Internet entraîne également un biais et des problèmes de droits d’auteur. Tout d’abord, parlons du biais, qui fait référence à des résultats disparates d’un modèle selon des attributs d’identité personnelle, tels que la race, le genre, la classe sociale ou la religion. Étant donné que les LLMs apprennent des caractéristiques et des schémas à partir de données Internet, ils héritent malheureusement des préjugés humains, des injustices historiques et des associations culturelles. Alors que les humains sont biaisés, les LLMs sont encore pires car ils ont tendance à amplifier les biais présents dans les données d’entraînement. Pour les LLMs, les hommes sont des médecins, des ingénieurs et des PDG performants, les femmes sont des réceptionnistes et des infirmières belles et serviables, et les personnes LGBTQ n’existent pas.
La formation des LLMs sur des quantités insondables de données Internet soulève également des questions concernant les problèmes de droits d’auteur. Les droits d’auteur sont des droits exclusifs sur une œuvre créative, où le titulaire du droit d’auteur est la seule entité ayant le pouvoir de reproduire, distribuer, exposer ou exécuter l’œuvre pendant une durée définie.
En ce moment, la principale préoccupation juridique concernant les LLMs ne se concentre pas sur la copyrightabilité de leurs résultats, mais plutôt sur la violation potentielle des droits d’auteur existants des artistes et écrivains dont les créations contribuent à leurs ensembles de données d’entraînement. La Guilde des auteurs a appelé OpenAI, Google, Meta et Microsoft, entre autres, à consentir, à créditer et à indemniser équitablement les auteurs pour l’utilisation de matériaux protégés par le droit d’auteur dans la formation des LLMs. Certains auteurs et éditeurs ont également pris cette affaire en main.
Les développeurs de LLMs sont actuellement confrontés à plusieurs poursuites judiciaires de la part de particuliers et de groupes concernant les problèmes de droits d’auteur – Sarah Silverman, une comédienne et actrice, a rejoint un groupe d’auteurs et d’éditeurs intentant une action en justice contre OpenAI, affirmant qu’ils n’ont jamais donné leur autorisation pour l’utilisation de leurs livres protégés par le droit d’auteur dans la formation des LLMs.
Alors que les préoccupations concernant les hallucinations, le biais et les droits d’auteur sont parmi les problèmes les plus documentés associés aux LLMs, ce ne sont en aucun cas les seules préoccupations. Pour n’en nommer que quelques-unes, les LLMs codent des informations sensibles, produisent des résultats indésirables ou toxiques et peuvent être exploités par des adversaires. Indubitablement, les LLMs excellent dans la génération de textes cohérents et contextuellement pertinents et doivent certainement être exploités pour améliorer l’efficacité, entre autres avantages, dans une multitude de tâches et de scénarios.
Les chercheurs travaillent également à résoudre certains de ces problèmes, mais la meilleure façon de contrôler les résultats du modèle reste une question de recherche ouverte, donc les LLMs existants sont loin d’être infaillibles. Leurs résultats doivent toujours être examinés pour leur exactitude, leur factualité et leurs biais potentiels. Si vous obtenez un résultat qui semble trop beau pour être vrai, il vous faut être prudent et examiner plus en détail. La responsabilité incombe aux utilisateurs de valider et de réviser tout texte généré à partir des LLMs, ou comme nous aimons le dire, de l’IA génératrice : c’est votre première ébauche, pas le résultat final.
Maggie Engler est une ingénieure et chercheuse travaillant actuellement sur la sécurité des modèles de langage larges. Elle se concentre sur l’application de la science des données et de l’apprentissage automatique aux abus dans l’écosystème en ligne et est une experte en cybersécurité et en confiance et sécurité. Maggie est une éducatrice et communicatrice engagée, enseignant en tant qu’instructrice adjointe à l’École d’information de l’Université du Texas à Austin.
[Numa Dhamani](https://www.linkedin.com/in/numadhamani/) est une ingénieure et chercheuse travaillant à l’intersection de la technologie et de la société. Elle est une experte en traitement du langage naturel avec une expertise dans les opérations d’influence, la sécurité et la confidentialité. Numa a développé des systèmes d’apprentissage automatique pour des entreprises du Fortune 500 et des plateformes de médias sociaux, ainsi que pour des start-ups et des organisations à but non lucratif. Elle a conseillé des entreprises et des organisations, a été chercheuse principale sur les programmes de recherche du Département de la Défense des États-Unis et a contribué à plusieurs revues internationales à comité de lecture.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- IBM présente une puce informatique inspirée du cerveau qui pourrait booster l’intelligence artificielle (IA) en travaillant plus rapidement avec beaucoup moins de puissance.
- Les chercheurs de l’Université de Tsinghua proposent les Modèles de Cohérence Latente (LCMs) La prochaine génération de modèles d’IA générative après les Modèles de Diffusion Latente (LDMs).
- Shyam Bhojwani sur l’automatisation, la transformation numérique, la cybersécurité et l’avenir des rôles dans le domaine de l’informatique
- Oktane 2023 Okta dévoile de nouvelles innovations en matière d’identité pour sécuriser l’ère de l’IA.
- La Frontière de l’Évolution des Agents d’Intelligence Artificielle (IA)
- Préparez-vous pour l’avenir de vos données les compétences essentielles que chaque scientifique des données devra posséder d’ici 2023
- Un guide étape par étape sur les chatbots PDF avec Langchain et Ollama