Les chercheurs du MIT CSAIL discutent des frontières de l’IA générative.
MIT CSAIL researchers discuss the boundaries of generative AI.
Des experts se réunissent pour jeter un coup d’œil sous le capot du code, du langage et des images générés par l’IA, ainsi que de ses capacités, limitations et impacts futurs.
L’émergence de l’intelligence artificielle générative a suscité une profonde exploration philosophique de la nature de la conscience, de la créativité et de l’auteur. Alors que nous assistons à de nouvelles avancées dans le domaine, il est de plus en plus évident que ces agents synthétiques possèdent une capacité remarquable à créer, itérer et remettre en question nos notions traditionnelles d’intelligence. Mais que signifie vraiment pour un système d’IA d’être “génératif”, avec de nouvelles frontières floues d’expression créative entre les humains et les machines ?
Pour ceux qui ont l’impression que l'”intelligence artificielle générative” – un type d’IA capable de créer de nouvelles données ou du contenu original similaire à ce sur quoi elle a été formée – est apparue comme une sensation du jour au lendemain, même si les nouvelles capacités ont surpris beaucoup de monde, la technologie sous-jacente est en gestation depuis un certain temps.
- Le système d’IA peut générer de nouvelles protéines répondant aux objectifs de conception structurelle.
- Système de deep-learning explore l’intérieur des matériaux depuis l’extérieur
- Former les machines pour apprendre plus comme le font les humains
Mais comprendre la véritable capacité peut être aussi indistinct que certains des contenus génératifs que ces modèles produisent. À cette fin, des chercheurs du Laboratoire d’informatique et d’intelligence artificielle (CSAIL) du MIT ont organisé des discussions sur les capacités et les limites de l’IA générative, ainsi que ses impacts potentiels sur la société et les industries, en ce qui concerne le langage, les images et le code.
Il existe plusieurs modèles d’IA générative, chacun avec ses propres approches et techniques uniques. Ceux-ci comprennent les réseaux antagonistes génératifs (GAN), les auto-encodeurs variationnels (VAE) et les modèles de diffusion, qui ont tous montré une puissance exceptionnelle dans diverses industries et domaines, de l’art à la musique et à la médecine. Avec cela sont également venus une multitude de dilemmes éthiques et sociaux, tels que le potentiel de générer de fausses nouvelles, des deepfakes et des désinformations. Les chercheurs affirment que la prise en compte de ces considérations est essentielle pour continuer à étudier les capacités et les limites de l’IA générative et assurer une utilisation et une responsabilité éthiques.
Lors des remarques d’ouverture, pour illustrer l’habileté visuelle de ces modèles, la professeure d’ingénierie électrique et informatique (EECS) du MIT et directrice du CSAIL, Daniela Rus, a sorti un cadeau spécial que ses étudiants lui ont récemment offert : un collage de portraits d’IA pleins de sourires de Rus, reflétant un large éventail de reflets semblables à des miroirs. Pourtant, il n’y avait aucun artiste commissionné en vue.
C’est la machine qui devait être remerciée.
Les modèles génératifs apprennent à créer des images en téléchargeant de nombreuses photos sur Internet et en essayant de faire en sorte que l’image de sortie ressemble aux données d’entraînement échantillonnées. Il existe de nombreuses façons de former un générateur de réseau neuronal, et les modèles de diffusion ne sont qu’une des façons populaires. Ces modèles, expliqués par le professeur associé d’EECS du MIT et investigateur principal du CSAIL, Phillip Isola, cartographient du bruit aléatoire en images. En utilisant un processus appelé diffusion, le modèle convertira des objets structurés comme des images en bruit aléatoire, et le processus est inversé en entraînant un réseau neuronal pour éliminer le bruit pas à pas jusqu’à ce que l’image sans bruit soit obtenue. Si vous avez déjà essayé DALL-E 2, où une phrase et un bruit aléatoire sont entrés, et le bruit se condense en images, vous avez utilisé un modèle de diffusion.
“Pour moi, l’aspect le plus excitant des données génératives n’est pas sa capacité à créer des images photoréalistes, mais plutôt le niveau sans précédent de contrôle qu’elle nous offre. Elle nous offre de nouveaux boutons à tourner et des cadrans à ajuster, ce qui donne lieu à des possibilités passionnantes. Le langage est apparu comme une interface particulièrement puissante pour la génération d’images, nous permettant d’entrer une description telle que ‘style Van Gogh’ et d’avoir le modèle produire une image qui correspond à cette description”, explique Isola. “Pourtant, le langage n’est pas tout-encompassant ; certaines choses sont difficiles à communiquer uniquement par des mots. Par exemple, il pourrait être difficile de communiquer l’emplacement précis d’une montagne à l’arrière-plan d’un portrait. Dans de tels cas, des techniques alternatives comme le croquis peuvent être utilisées pour fournir une entrée plus spécifique au modèle et obtenir la sortie désirée.”
Isola a ensuite utilisé l’image d’un oiseau pour montrer comment les différents facteurs qui contrôlent les différents aspects d’une image créée par un ordinateur sont comme des “jets de dés”. En changeant ces facteurs, tels que la couleur ou la forme de l’oiseau, l’ordinateur peut générer de nombreuses variations différentes de l’image.
Et si vous n’avez pas utilisé un générateur d’images, il y a une chance que vous ayez utilisé des modèles similaires pour le texte. Jacob Andreas, professeur adjoint d’EECS du MIT et investigateur principal du CSAIL, a emmené le public des images dans le monde des mots générés, reconnaissant la nature impressionnante des modèles qui peuvent écrire de la poésie, avoir des conversations et faire une génération ciblée de documents spécifiques en une seule heure.
Comment ces modèles semblent-ils exprimer des choses qui ressemblent à des désirs et des croyances ? Ils tirent parti de la puissance des embeddings de mots, explique Andreas, où des mots avec des significations similaires se voient attribuer des valeurs numériques (vecteurs) et sont placés dans un espace avec de nombreuses dimensions différentes. Lorsque ces valeurs sont tracées, les mots ayant des significations similaires se retrouvent proches les uns des autres dans cet espace. La proximité de ces valeurs montre à quel point les mots sont étroitement liés dans leur signification. (Par exemple, peut-être que “Roméo” est généralement proche de “Juliette”, et ainsi de suite). Les modèles de transformateur, en particulier, utilisent quelque chose appelé un “mécanisme d’attention” qui se concentre sélectivement sur des parties spécifiques de la séquence d’entrée, permettant de multiples rounds d’interactions dynamiques entre différents éléments. Ce processus itératif peut être comparé à une série de “mouvements” ou de fluctuations entre les différents points, conduisant au mot suivant prédit dans la séquence.
« Imaginez être dans votre éditeur de texte et avoir un bouton magique dans le coin supérieur droit que vous pourriez presser pour transformer vos phrases en un anglais beau et précis. Nous avons eu la vérification de grammaire et d’orthographe depuis un certain temps, bien sûr, mais nous pouvons maintenant explorer de nombreuses autres façons d’incorporer ces fonctionnalités magiques dans nos applications », dit Andreas. « Par exemple, nous pouvons raccourcir un passage long, tout comme nous réduisons une image dans notre éditeur d’image, et avoir les mots qui apparaissent comme nous le désirons. Nous pouvons même repousser les limites en aidant les utilisateurs à trouver des sources et des citations lorsqu’ils développent un argument. Cependant, nous devons garder à l’esprit que même les meilleurs modèles d’aujourd’hui sont loin de pouvoir le faire de manière fiable ou fiable, et qu’il reste énormément de travail à faire pour rendre ces sources fiables et impartiales. Néanmoins, il y a un énorme espace de possibilités où nous pouvons explorer et créer avec cette technologie. »
Une autre prouesse des grands modèles de langage, qui peut parfois sembler assez “méta”, a également été explorée : des modèles qui écrivent du code – comme de petites baguettes magiques, sauf qu’au lieu de sorts, ils invoquent des lignes de code, faisant (en partie) vivre les rêves des développeurs de logiciels. Le professeur du MIT en génie électrique et informatique et enquêteur principal du CSAIL, Armando Solar-Lezama, se souvient d’un événement de l’histoire de 2014, expliquant comment, à l’époque, il y avait une avancée significative dans l’utilisation de la “mémoire à court terme longue (LSTM)”, une technologie de traduction de langue qui pourrait être utilisée pour corriger les devoirs de programmation pour du texte prévisible avec une tâche bien définie. Deux ans plus tard, le besoin humain de base de tout le monde est apparu : l’attention, introduite par le document Google de 2017 présentant le mécanisme “Attention is All You Need”. Peu de temps après, un ancien membre du CSAIL, Rishabh Singh, faisait partie d’une équipe qui utilisait l’attention pour construire des programmes entiers pour des tâches relativement simples de manière automatisée. Peu de temps après, des transformateurs sont apparus, entraînant une explosion de recherches sur l’utilisation de la correspondance texte-texte pour générer du code.
« Le code peut être exécuté, testé et analysé pour détecter les vulnérabilités, ce qui le rend très puissant. Cependant, le code est également très fragile et de petites erreurs peuvent avoir un impact significatif sur sa fonctionnalité ou sa sécurité », explique Solar-Lezema. « Un autre défi est la taille et la complexité des logiciels commerciaux, qui peuvent être difficiles à gérer même pour les plus grands modèles. De plus, la diversité des styles de codage et des bibliothèques utilisées par différentes entreprises signifie que la barre de précision lors de la manipulation de code peut être très élevée. »
Au cours de la discussion basée sur des questions-réponses qui a suivi, Rus a ouvert la discussion sur le contenu : comment pouvons-nous rendre la sortie de l’IA générative plus puissante en incorporant des connaissances et des contraintes spécifiques au domaine dans les modèles ? « Les modèles de traitement de données visuelles complexes telles que les modèles 3D, les vidéos et les champs de lumière, qui ressemblent au holodeck de Star Trek, dépendent encore fortement de la connaissance du domaine pour fonctionner efficacement », explique Isola. « Ces modèles intègrent les équations de projection et d’optique dans leurs fonctions et routines d’optimisation. Cependant, avec la disponibilité croissante des données, il est possible que certaines connaissances du domaine puissent être remplacées par les données elles-mêmes, ce qui fournira des contraintes suffisantes pour l’apprentissage. Bien que nous ne puissions pas prédire l’avenir, il est plausible qu’à mesure que nous avançons, nous pourrions avoir besoin de moins de données structurées. Néanmoins, pour l’instant, la connaissance du domaine reste un aspect crucial de la manipulation de données structurées ».
Le panel a également discuté de la nature cruciale de l’évaluation de la validité du contenu génératif. De nombreux benchmarks ont été construits pour montrer que les modèles sont capables d’atteindre une précision de niveau humain dans certaines tests ou tâches qui nécessitent des capacités linguistiques avancées. Cependant, à y regarder de plus près, la simple paraphrase des exemples peut faire échouer complètement les modèles. Identifier les modes de défaillance est devenu aussi crucial, voire plus, que la formation des modèles eux-mêmes.
Reconnaissant l’étape de la conversation – l’académie – Solar-Lezama a parlé des progrès réalisés dans le développement de grands modèles de langage contre les poches profondes et puissantes de l’industrie. Les modèles en milieu universitaire, dit-il, “ont besoin de très grands ordinateurs” pour créer les technologies désirées qui ne dépendent pas trop du soutien de l’industrie.
Au-delà des capacités techniques, des limitations et de l’évolution de tout cela, Rus a également soulevé les enjeux moraux liés à la vie dans un monde généré par l’IA, en relation avec les deepfakes, la désinformation et les biais. Isola a mentionné de nouvelles solutions techniques axées sur le tatouage numérique, qui pourraient aider les utilisateurs à savoir subtilement si une image ou un texte a été généré par une machine. « L’une des choses à surveiller ici est que c’est un problème qui ne sera pas résolu uniquement avec des solutions techniques. Nous pouvons fournir l’espace de solutions et sensibiliser aux capacités de ces modèles, mais il est très important que le grand public soit conscient de ce que ces modèles peuvent réellement faire », dit Solar-Lezama. « En fin de compte, il s’agit d’une conversation plus large. Cela ne devrait pas être limité aux technologues, car c’est un problème social assez important qui va au-delà de la technologie elle-même. »
Une autre tendance autour des chatbots, des robots et un trope préféré dans de nombreux contextes de culture pop dystopique a été discutée : la séduction de l’anthropomorphisation. Pourquoi, pour beaucoup, y a-t-il une tendance naturelle à projeter des qualités semblables à celles des humains sur des entités non humaines ? Andreas a expliqué les écoles de pensée opposées autour de ces grands modèles linguistiques et de leurs capacités apparemment surhumaines.
“Certains pensent que des modèles tels que ChatGPT ont déjà atteint une intelligence de niveau humain et peuvent même être conscients”, a déclaré Andreas, “mais en réalité, ces modèles manquent encore des capacités véritablement humaines pour comprendre non seulement la nuance, mais parfois ils se comportent de manière extrêmement visible, étrange et non humaine. D’un autre côté, certains soutiennent que ces modèles ne sont que des outils de reconnaissance de motifs superficiels qui ne peuvent pas apprendre la véritable signification du langage. Mais cette vision sous-estime également le niveau de compréhension qu’ils peuvent acquérir à partir du texte. Bien que nous devions être prudents en ne surestimant pas leurs capacités, nous ne devrions pas non plus négliger les préjudices potentiels de sous-estimer leur impact. En fin de compte, nous devrions aborder ces modèles avec humilité et reconnaître qu’il reste encore beaucoup à apprendre sur ce qu’ils peuvent et ne peuvent pas faire.”
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Le premier Grand Défi J-WAFS vise à développer des variantes de culture améliorées et à les transférer du laboratoire aux terres cultivées.
- Les chercheurs utilisent l’IA pour identifier des matériaux similaires dans les images.
- IA probabiliste qui sait à quel point elle fonctionne bien.
- En utilisant l’IA, des scientifiques ont trouvé un médicament qui pourrait combattre les infections résistantes aux médicaments.
- Nouvel outil aide les gens à choisir la bonne méthode pour évaluer les modèles d’IA.
- Nouveau modèle offre un moyen d’accélérer la découverte de médicaments
- Un pas vers des pilotes automatiques sûrs et fiables pour le vol