Dix ans de l’Intelligence Artificielle en revue

10 years of Artificial Intelligence reviewed

De la classification d’images à la thérapie par chatbot.

La dernière décennie a été une période passionnante et événementielle pour le domaine de l’intelligence artificielle (IA). Des explorations modestes du potentiel de l’apprentissage en profondeur ont conduit à une prolifération explosive d’un domaine qui inclut maintenant tout, des systèmes de recommandation dans le commerce électronique à la détection d’objets pour les véhicules autonomes et des modèles génératifs qui peuvent créer tout, des images réalistes à un texte cohérent.

Dans cet article, nous ferons un retour en arrière et revisiterons certaines des percées clés qui nous ont menés là où nous en sommes aujourd’hui. Que vous soyez un praticien expérimenté de l’IA ou simplement intéressé par les derniers développements dans le domaine, cet article vous fournira un aperçu complet du progrès remarquable qui a conduit l’IA à devenir un nom familier.

2013: AlexNet et auto-encodeurs variationnels

L’année 2013 est largement considérée comme la “coming-of-age” de l’apprentissage en profondeur, initiée par des avancées majeures en vision par ordinateur. Selon une récente interview de Geoffrey Hinton, d’ici 2013, “pratiquement toute la recherche en vision par ordinateur avait basculé vers les réseaux neuronaux”. Ce boom a été principalement alimenté par une percée plutôt surprenante dans la reconnaissance d’images un an plus tôt.

En septembre 2012, AlexNet, un réseau neuronal convolutif (CNN) profond, a réalisé une performance record dans le défi de reconnaissance visuelle à grande échelle d’ImageNet (ILSVRC), démontrant le potentiel de l’apprentissage en profondeur pour les tâches de reconnaissance d’images. Il a atteint une erreur de top-5 de 15,3%, ce qui était inférieur de 10,9% à celui de son concurrent le plus proche.

Les améliorations techniques derrière ce succès ont été déterminantes pour la trajectoire future de l’IA et ont radicalement changé la manière dont l’apprentissage en profondeur était perçu.

Tout d’abord, les auteurs ont appliqué un CNN profond composé de cinq couches de convolution et de trois couches linéaires entièrement connectées – une conception architecturale rejetée par de nombreux experts comme impraticable à l’époque. De plus, en raison du grand nombre de paramètres produits par la profondeur du réseau, l’entraînement a été effectué en parallèle sur deux unités de traitement graphique (GPU), démontrant la capacité à accélérer considérablement l’entraînement sur de grands ensembles de données. Le temps d’entraînement a été réduit grâce à l’utilisation d’unités rectifiées linéaires (ReLU), plus efficaces que les fonctions d’activation traditionnelles telles que la sigmoïde et le tanh.

Ces avancées qui ont collectivement conduit au succès d’AlexNet ont marqué un tournant dans l’histoire de l’IA et ont suscité un regain d’intérêt pour l’apprentissage en profondeur tant chez les universitaires que chez la communauté technologique. En conséquence, 2013 est considérée par beaucoup comme le point d’inflexion après lequel l’apprentissage en profondeur a vraiment commencé à décoller.

Également en 2013, bien que légèrement noyé dans le bruit d’AlexNet, le développement d’auto-encodeurs variationnels, ou VAE – des modèles génératifs capables d’apprendre à représenter et à générer des données telles que des images et des sons. Ils fonctionnent en apprenant une représentation compressée des données d’entrée dans un espace de dimensions plus faibles, appelé espace latent. Cela leur permet de générer de nouvelles données en échantillonnant à partir de cet espace latent appris. Les VAE ont ensuite ouvert de nouvelles voies pour la modélisation générative et la génération de données, avec des applications dans des domaines tels que l’art, le design et les jeux.

2014: Réseaux antagonistes génératifs

L’année suivante, en juin 2014, le domaine de l’apprentissage en profondeur a connu une autre avancée majeure avec l’introduction des réseaux antagonistes génératifs, ou GAN, par Ian Goodfellow et ses collègues.

Les GAN sont un type de réseau neuronal capable de générer de nouveaux échantillons de données similaires à un ensemble d’entraînement. Essentiellement, deux réseaux sont entraînés simultanément: (1) un réseau générateur génère des échantillons faux ou synthétiques et (2) un réseau discriminateur évalue leur authenticité. Cet entraînement est effectué dans une configuration de type jeu, le générateur essayant de créer des échantillons qui trompent le discriminateur, et le discriminateur essayant de correctement identifier les échantillons faux.

À cette époque, les GAN représentaient un outil puissant et novateur pour la génération de données, étant utilisés non seulement pour générer des images et des vidéos, mais aussi de la musique et de l’art. Ils ont également contribué à l’avancement de l’apprentissage non supervisé, un domaine largement considéré comme sous-développé et difficile, en démontrant la possibilité de générer des échantillons de données de haute qualité sans compter sur des étiquettes explicites.

2015: ResNets et percées en NLP

En 2015, le domaine de l’IA a connu des avancées considérables à la fois en vision par ordinateur et en traitement du langage naturel, ou NLP.

Kaiming He et ses collègues ont publié un article intitulé “Deep Residual Learning for Image Recognition”, dans lequel ils ont introduit le concept de réseaux de neurones résiduels, ou ResNets – des architectures qui permettent à l’information de circuler plus facilement dans le réseau en ajoutant des raccourcis. Contrairement à un réseau de neurones régulier, où chaque couche prend la sortie de la couche précédente en entrée, dans un ResNet, des connexions résiduelles supplémentaires sont ajoutées qui sautent une ou plusieurs couches et se connectent directement aux couches plus profondes du réseau.

En conséquence, les ResNets ont pu résoudre le problème des gradients évanescents, ce qui a permis l’entraînement de réseaux de neurones beaucoup plus profonds que ce qui était considéré comme possible à l’époque. Cela a ensuite conduit à des améliorations significatives dans la classification d’images et les tâches de reconnaissance d’objets.

À peu près à la même époque, les chercheurs ont fait des progrès considérables dans le développement de réseaux de neurones récurrents (RNN) et de modèles de mémoire à court et long terme (LSTM). Bien qu’ils existent depuis les années 1990, ces modèles n’ont commencé à susciter de l’intérêt qu’à partir de 2015, principalement en raison de facteurs tels que (1) la disponibilité de jeux de données plus vastes et plus diversifiés pour l’entraînement, (2) des améliorations de la puissance de calcul et du matériel, qui ont permis l’entraînement de modèles plus profonds et plus complexes, et (3) des modifications apportées en cours de route, telles que des mécanismes de portes plus sophistiqués.

En conséquence, ces architectures ont permis aux modèles de langage de mieux comprendre le contexte et la signification du texte, ce qui a conduit à des améliorations considérables dans des tâches telles que la traduction de langues, la génération de texte et l’analyse des sentiments. Le succès des RNN et des LSTMs à cette époque a ouvert la voie au développement de grands modèles de langage (LLM) que nous voyons aujourd’hui.

2016: AlphaGo

Après la défaite de Garry Kasparov face à Deep Blue d’IBM en 1997, une autre bataille homme contre machine a envoyé des ondes de choc à travers le monde du jeu en 2016: AlphaGo de Google a vaincu le champion du monde de Go, Lee Sedol.

La défaite de Sedol a marqué une autre étape importante dans la trajectoire de l’avancement de l’IA : elle a démontré que les machines pouvaient surpasser même les joueurs humains les plus habiles dans un jeu qui était autrefois considéré comme trop complexe pour les ordinateurs. En utilisant une combinaison d’apprentissage par renforcement profond et de recherche d’arbre de Monte Carlo, AlphaGo analyse des millions de positions de parties précédentes et évalue les meilleurs coups possibles – une stratégie qui dépasse largement la prise de décision humaine dans ce contexte.

2017: Architecture Transformer et Modèles de Langage

En 2017, on peut dire que c’était l’année la plus décisive qui a jeté les bases des percées en matière d’IA générative que nous connaissons aujourd’hui.

En décembre 2017, Vaswani et ses collègues ont publié l’article fondateur “Attention is all you need”, qui a introduit l’architecture transformer qui utilise le concept d’auto-attention pour traiter les données d’entrée séquentielles. Cela a permis un traitement plus efficace des dépendances à longue portée, qui avaient été un défi pour les architectures RNN traditionnelles.

Les transformateurs sont composés de deux composants essentiels : les encodeurs et les décodeurs. L’encodeur est responsable de l’encodage des données d’entrée, qui, par exemple, peut être une séquence de mots. Il prend ensuite la séquence d’entrée et applique plusieurs couches d’auto-attention et de réseaux de neurones à propagation avant pour capturer les relations et les caractéristiques dans la phrase et apprendre des représentations significatives.

Essentiellement, l’auto-attention permet au modèle de comprendre les relations entre différents mots dans une phrase. Contrairement aux modèles traditionnels, qui traiteraient les mots dans un ordre fixe, les transformateurs examinent en réalité tous les mots en même temps. Ils attribuent des scores d’attention à chaque mot en fonction de sa pertinence par rapport aux autres mots de la phrase.

Le décodeur, quant à lui, prend la représentation encodée de l’encodeur et produit une séquence de sortie. Dans des tâches telles que la traduction automatique ou la génération de texte, le décodeur génère la séquence traduite en fonction de l’entrée reçue de l’encodeur. Tout comme l’encodeur, le décodeur se compose également de plusieurs couches d’auto-attention et de réseaux de neurones à propagation avant. Cependant, il inclut un mécanisme d’attention supplémentaire qui lui permet de se concentrer sur la sortie de l’encodeur. Cela permet ensuite au décodeur de prendre en compte les informations pertinentes de la séquence d’entrée lors de la génération de la sortie.

L’architecture transformer est depuis devenue un composant clé dans le développement de LLM et a conduit à des améliorations significatives dans le domaine du NLP, telles que la traduction automatique, la modélisation de langage et la réponse aux questions.

2018: GPT-1, BERT et les réseaux neuronaux graphiques

Quelques mois après la publication de leur article fondateur, Vaswani et al., le Générateur Pré-entraîné Transformateur, ou GPT-1, a été introduit par OpenAI en juin 2018, qui a utilisé l’architecture du transformateur pour capturer efficacement les dépendances à longue distance dans le texte. GPT-1 a été l’un des premiers modèles à démontrer l’efficacité de la pré-formation non supervisée suivie d’un ajustement fin sur des tâches NLP spécifiques.

Google, qui a également profité de l’architecture du transformateur encore assez nouvelle, a également publié et mis en open source leur propre méthode de pré-entraînement appelée Bertique Encodage Représentations Transformateurs bidirectionnels, ou BERT. Contrairement aux modèles précédents qui traitent le texte de manière unidirectionnelle (y compris GPT-1), BERT prend en compte le contexte de chaque mot dans les deux directions simultanément. Pour l’illustrer, les auteurs fournissent un exemple très intuitif :

… dans la phrase “J’ai accédé au compte bancaire”, un modèle contextuel unidirectionnel représenterait “banque” en se basant sur “J’ai accédé au”, mais pas sur “compte”. Cependant, BERT représente “banque” en utilisant à la fois son contexte précédent et suivant – “J’ai accédé au … compte” – en partant du bas d’un réseau neuronal profond, le rendant profondément bidirectionnel.

Le concept de bidirectionnalité était si puissant qu’il a conduit BERT à surpasser les systèmes NLP de pointe sur une variété de tâches de référence.

En plus de GPT-1 et BERT, les réseaux neuronaux graphiques, ou GNN, ont également fait du bruit cette année-là. Ils appartiennent à une catégorie de réseaux neuronaux spécialement conçus pour fonctionner avec des données de graphique. Les GNN utilisent un algorithme de passage de message pour propager l’information à travers les nœuds et les arêtes d’un graphe. Cela permet au réseau d’apprendre la structure et les relations des données de manière beaucoup plus intuitive.

Ce travail a permis l’extraction d’informations beaucoup plus profondes des données et, par conséquent, a élargi la gamme de problèmes auxquels l’apprentissage en profondeur pourrait être appliqué. Avec les GNN, des avancées majeures ont été rendues possibles dans des domaines tels que l’analyse de réseaux sociaux, les systèmes de recommandation et la découverte de médicaments.

2019: GPT-2 et améliorations des modèles génératifs

L’année 2019 a marqué plusieurs avancées notables dans les modèles génératifs, notamment l’introduction de GPT-2. Ce modèle a vraiment laissé ses pairs dans la poussière en atteignant des performances de pointe dans de nombreuses tâches NLP et, en plus, était capable de générer un texte hautement réaliste, ce qui, avec du recul, nous a donné un avant-goût de ce qui allait arriver dans cette arène.

D’autres améliorations dans ce domaine comprenaient BigGAN de DeepMind, qui a généré des images de haute qualité qui étaient presque indiscernables des images réelles, et StyleGAN de NVIDIA, qui permettait un meilleur contrôle de l’apparence de ces images générées.

Collectivement, ces avancées dans ce qui est maintenant connu sous le nom d’IA générative ont repoussé les limites de ce domaine encore plus loin, et…

2020: GPT-3 et l’apprentissage auto-supervisé

… peu de temps après, un autre modèle est né, qui est devenu un nom courant même en dehors de la communauté technologique : GPT-3. Ce modèle a représenté un bond en avant majeur dans l’échelle et les capacités des LLM. Pour mettre les choses en perspective, GPT-1 avait des paramètres mesquins de 117 millions. Ce nombre est passé à 1,5 milliard pour GPT-2 et à 175 milliards pour GPT-3.

Cet immense espace de paramètres permet à GPT-3 de générer un texte remarquablement cohérent sur une large gamme de sollicitations et de tâches. Il a également démontré des performances impressionnantes dans une variété de tâches NLP, telles que la complétion de texte, la réponse à des questions et même l’écriture créative.

De plus, GPT-3 a de nouveau mis en évidence le potentiel de l’utilisation de l’apprentissage auto-supervisé, qui permet aux modèles d’être formés sur de grandes quantités de données non étiquetées. Cela présente l’avantage que ces modèles peuvent acquérir une compréhension globale du langage sans avoir besoin d’une formation spécifique à la tâche, ce qui le rend beaucoup plus économique.

Yann LeCun tweete à propos d’un article du NYT sur l’apprentissage auto-supervisé.

2021: AlphaFold 2, DALL·E et GitHub Copilot

De la modélisation des protéines à la génération d’images et à l’assistance à la programmation automatisée, l’année 2021 a été riche en événements grâce aux sorties d’AlphaFold 2, de DALL·E et de GitHub Copilot.

AlphaFold 2 a été salué comme une solution tant attendue au problème de la modélisation des protéines vieux de plusieurs décennies. Les chercheurs de DeepMind ont étendu l’architecture des transformers pour créer des blocs d’evoformers – des architectures qui exploitent des stratégies évolutives pour l’optimisation des modèles – afin de construire un modèle capable de prédire la structure 3D d’une protéine en fonction de sa séquence d’acides aminés 1D. Cette percée a un énorme potentiel pour révolutionner des domaines tels que la découverte de médicaments, la bio-ingénierie ainsi que notre compréhension des systèmes biologiques.

OpenAI a également fait parler de lui cette année avec la sortie de DALL·E. Essentiellement, ce modèle combine les concepts de modèles de langage de type GPT et de génération d’images pour permettre la création d’images de haute qualité à partir de descriptions textuelles.

Pour illustrer la puissance de ce modèle, considérez l’image ci-dessous, qui a été générée avec la commande “Peinture à l’huile d’un monde futuriste avec des voitures volantes”.

Enfin, GitHub a publié ce qui allait devenir le meilleur ami de chaque développeur : Copilot. Cela a été réalisé en collaboration avec OpenAI, qui a fourni le modèle de langage sous-jacent, Codex, qui a été entraîné sur un grand corpus de code disponible publiquement et, à son tour, a appris à comprendre et à générer du code dans différents langages de programmation. Les développeurs peuvent utiliser Copilot en fournissant simplement un commentaire de code indiquant le problème qu’ils essaient de résoudre, et le modèle suggère alors du code pour implémenter la solution. Les autres fonctionnalités comprennent la capacité à décrire le code d’entrée en langage naturel et à traduire le code entre les langages de programmation.

2022 : ChatGPT et Diffusion Stable

Le développement rapide de l’IA au cours de la dernière décennie a abouti à une avancée révolutionnaire : ChatGPT d’OpenAI, un chatbot qui a été lancé dans la nature en novembre 2022. L’outil représente une réalisation de pointe en matière de traitement du langage naturel, capable de générer des réponses cohérentes et contextuellement pertinentes à une large gamme de requêtes et de commandes. En outre, il peut engager des conversations, fournir des explications, offrir des suggestions créatives, aider à résoudre des problèmes, écrire et expliquer du code, et même simuler différentes personnalités ou styles d’écriture.

L’interface simple et intuitive avec laquelle on peut interagir avec le robot a également stimulé une forte augmentation de l’utilisabilité. Auparavant, c’était surtout la communauté technologique qui jouait avec les dernières inventions basées sur l’IA. Cependant, de nos jours, les outils d’IA ont pénétré presque tous les domaines professionnels, des ingénieurs logiciels aux écrivains, musiciens et publicitaires. De nombreuses entreprises utilisent également le modèle pour automatiser des services tels que le support client, la traduction de langues ou la réponse aux FAQ. En fait, la vague d’automatisation que nous voyons a ravivé certaines inquiétudes et stimulé des discussions sur les emplois qui pourraient être automatisés.

Bien que ChatGPT ait pris beaucoup de la vedette en 2022, il y a également eu une avancée significative dans la génération d’images. La diffusion stable, un modèle de diffusion latent texte-image capable de générer des images photoréalistes à partir de descriptions textuelles, a été lancée par Stability AI.

La diffusion stable est une extension des modèles de diffusion traditionnels, qui fonctionnent en ajoutant itérativement du bruit aux images, puis en inversant le processus pour récupérer les données. Il a été conçu pour accélérer ce processus en n’opérant pas directement sur les images d’entrée, mais plutôt sur une représentation de dimensions inférieures, ou espace latent, de celles-ci. De plus, le processus de diffusion est modifié en ajoutant la commande textuelle intégrée du transformer de l’utilisateur au réseau, ce qui lui permet de guider le processus de génération d’images à chaque itération.

Dans l’ensemble, la sortie de ChatGPT et de Stable Diffusion en 2022 a mis en évidence le potentiel de l’IA multimodale et générative et a stimulé un énorme développement et investissement supplémentaires dans ce domaine.

2023 : LLMs et Bots

L’année en cours s’est sans aucun doute imposée comme l’année des LLMs et des chatbots. De plus en plus de modèles sont développés et publiés à un rythme rapidement croissant.

Image de l’auteur.

Par exemple, le 24 février, Meta AI a publié LLaMA, un LLM qui surpasse GPT-3 sur la plupart des benchmarks, malgré un nombre considérablement plus petit de paramètres. Moins d’un mois plus tard, le 14 mars, OpenAI a publié GPT-4, une version plus grande, plus capable et multimodale de GPT-3. Bien que le nombre exact de paramètres de GPT-4 soit inconnu, il est estimé à plusieurs billions.

Le 15 mars, des chercheurs de l’Université de Stanford ont publié Alpaca, un modèle de langage léger qui a été affiné à partir de LLaMA sur des démonstrations de suivi d’instructions. Quelques jours plus tard, le 21 mars, Google a lancé son rival ChatGPT : Bard. Google vient également de sortir son dernier LLM, PaLM-2, plus tôt ce mois-ci, le 10 mai. Avec le rythme incessant de développement dans ce domaine, il est fort probable qu’un autre modèle aura émergé au moment où vous lirez ceci.

Nous constatons également de plus en plus d’entreprises incorporer ces modèles dans leurs produits. Par exemple, Duolingo a annoncé son Duolingo Max alimenté par GPT-4, un nouveau niveau d’abonnement visant à fournir des leçons de langue adaptées à chaque individu. Slack a également déployé un assistant alimenté par l’IA appelé Slack GPT, qui peut faire des choses comme rédiger des réponses ou résumer des discussions. De plus, Shopify a présenté un assistant alimenté par ChatGPT à l’application Shop de l’entreprise, qui peut aider les clients à identifier les produits souhaités à l’aide de diverses incitations.

Shopify annonce son assistant alimenté par ChatGPT sur Twitter.

Curieusement, les chatbots d’IA sont aujourd’hui considérés comme une alternative aux thérapeutes humains. Par exemple, Replika, une application de chatbot américaine, offre aux utilisateurs un “compagnon IA qui se soucie, toujours là pour écouter et parler, toujours de votre côté”. Sa fondatrice, Eugenia Kuyda, affirme que l’application a une grande variété de clients, allant des enfants autistes, qui s’y tournent comme moyen de “se réchauffer avant les interactions humaines”, aux adultes solitaires qui ont simplement besoin d’un ami.

Avant de conclure, j’aimerais souligner ce qui pourrait bien être l’apogée du développement de l’IA de la dernière décennie : les gens utilisent effectivement Bing ! Plus tôt cette année, Microsoft a introduit son “copilote pour le web” alimenté par GPT-4 qui a été personnalisé pour la recherche et, pour la première fois depuis… toujours (?), est apparu comme un sérieux concurrent à la domination de Google dans le secteur de la recherche.

Regarder en arrière et regarder vers l’avenir

En réfléchissant aux dix dernières années de développement de l’IA, il devient évident que nous avons été témoins d’une transformation qui a eu un impact profond sur notre façon de travailler, de faire des affaires et d’interagir les uns avec les autres. La plupart des progrès considérables qui ont été réalisés récemment avec des modèles génératifs, en particulier les LLM, semblent adhérer à la croyance commune que “plus c’est grand, mieux c’est”, en référence à l’espace des paramètres des modèles. Cela a été particulièrement remarquable avec la série GPT, qui a commencé avec 117 millions de paramètres (GPT-1) et, après chaque modèle successif augmentant d’environ un ordre de grandeur, a culminé avec GPT-4 avec potentiellement des billions de paramètres.

Cependant, selon une récente interview, le PDG d’OpenAI, Sam Altman, croit que nous avons atteint la fin de l’ère “plus c’est grand, mieux c’est”. À l’avenir, il pense toujours que le nombre de paramètres augmentera, mais la principale préoccupation des améliorations futures du modèle sera d’augmenter la capacité, l’utilité et la sécurité du modèle.

Cette dernière est particulièrement importante. Étant donné que ces puissants outils d’IA sont maintenant entre les mains du grand public et ne sont plus confinés à l’environnement contrôlé des laboratoires de recherche, il est maintenant plus critique que jamais que nous marchions avec prudence et veillions à ce que ces outils soient sûrs et alignés sur les meilleurs intérêts de l’humanité. Espérons que nous verrons autant de développement et d’investissement dans la sécurité de l’IA que nous en avons vu dans d’autres domaines.

PS : Au cas où j’aurais manqué un concept ou une percée clé de l’IA que vous pensez qui aurait dû être inclus dans cet article, faites-le moi savoir dans les commentaires ci-dessous !

Thomas A Dorfer est un scientifique des données et un scientifique appliqué chez Microsoft. Avant son poste actuel, il a travaillé en tant que scientifique des données dans l’industrie biotechnologique et en tant que chercheur dans le domaine de la neurofeedback. Il est titulaire d’une maîtrise en neuroscience intégrative et, dans ses temps libres, écrit également des articles de blog techniques sur IPGirl sur les sujets de la science des données, de l’apprentissage automatique et de l’IA.

Original. Reposté avec permission.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Quelle est l'empreinte carbone de l'IA ? Comparaison de l'empreinte carbone de l'intelligence artificielle et des tâches humaines

Au cours des dernières années, l’intelligence artificielle (IA) a réalisé d’impressionnants progrès et se...

AI

Un robot humanoïde peut piloter un avion mieux qu'un humain

Les ingénieurs et les chercheurs développent un robot humanoïde capable de piloter des avions sans nécessiter de modi...

AI

Une façon plus rapide d'enseigner un robot

Une nouvelle technique aide un utilisateur non technique à comprendre pourquoi un robot a échoué, puis à le peaufiner...

AI

Former votre propre LLM sans codage

Introduction L’intelligence artificielle générative, un domaine captivant qui promet de révolutionner notre faç...

AI

Découvrez comment Amazon Pharmacy a créé leur chatbot basé sur le Machine Learning en utilisant Amazon SageMaker.

Amazon Pharmacy est une pharmacie à service complet sur Amazon.com qui propose une tarification transparente, une ass...

AI

Le Guide Ultime de nnU-Net

Plongez profondément dans notre guide complet sur nnU-Net, l'outil de pointe pour la segmentation d'images. Acquérez ...