Votre guide ultime des abréviations Chat GPT et autres

Ultimate guide to Chat GPT and other abbreviations.

Tout le monde semble être devenu fou de ChatGPT, qui est devenu un phénomène culturel. Si vous n’êtes pas encore sur le train ChatGPT, cet article pourrait vous aider à mieux comprendre le contexte et l’excitation autour de cette innovation.

Que signifient toutes ces abréviations – ML, AI, AGI ?

ML (apprentissage automatique) est une approche pour résoudre des problèmes informatiques difficiles – au lieu de coder en utilisant un langage de programmation, vous construisez un algorithme qui “apprend” la solution à partir d’échantillons de données.

AI (intelligence artificielle) est un domaine de l’informatique traitant des problèmes (par exemple, la classification d’images, le travail avec le langage humain) qui sont difficiles à résoudre en utilisant la programmation traditionnelle. ML et AI vont de pair, avec ML étant un outil pour résoudre les problèmes formulés en AI.

AGI (intelligence artificielle générale) – est le terme correct pour ce que la culture populaire entend généralement par AI – la capacité des ordinateurs à atteindre des capacités intellectuelles et de raisonnement semblables à celles des humains. C’est encore le Graal pour les chercheurs travaillant dans le domaine de l’IA.

Qu’est-ce qu’un réseau de neurones ?

Un réseau de neurones artificiels (ANN) est une classe d’algorithmes d’apprentissage automatique et de structures de données (ou modèles pour faire court) appelés ainsi parce qu’il a été inspiré par la structure du tissu neural biologique. Mais cela ne reproduit pas complètement tous les mécanismes biologiques qui y sont associés. Les ANN sont plutôt des fonctions mathématiques compliquées basées sur des idées de la biologie des espèces vivantes.

Quand je lis “le modèle a 2 milliards de paramètres”, qu’est-ce que cela signifie ?

Les réseaux de neurones sont des structures en couches composées d’unités uniformes interconnectées les unes aux autres dans un réseau. La manière dont ces unités sont interconnectées est appelée architecture. Chaque connexion a un numéro associé appelé poids et les poids stockent des informations que le modèle apprend des données. Ainsi, lorsque vous lisez “le modèle a 2 milliards de paramètres”, cela signifie qu’il y a 2 milliards de connexions (et de poids) dans le modèle, ce qui désigne approximativement la capacité d’information du réseau de neurones.

Que signifie l’apprentissage en profondeur ?

Les réseaux de neurones ont été étudiés depuis les années 1980, mais ont eu un véritable impact lorsque l’industrie des jeux vidéo a introduit des superordinateurs personnels bon marché connus sous le nom d’unités de traitement graphique (GPU). Les chercheurs ont adapté ce matériel pour le processus de formation du réseau de neurones et ont obtenu des résultats impressionnants. L’une des premières architectures d’apprentissage en profondeur, le réseau de neurones convolutifs (CNN), a été capable de réaliser une reconnaissance d’image sophistiquée qui était difficile avec des algorithmes classiques de vision par ordinateur. Depuis lors, l’apprentissage automatique avec des réseaux de neurones a été rebaptisé apprentissage en profondeur, “profond” faisant référence aux architectures de réseaux de neurones compliquées que les réseaux sont capables d’explorer.

Où puis-je obtenir plus de détails sur le fonctionnement de cette technologie ?

Je recommande les vidéos de Grant Sanderson disponibles sur sa chaîne de mathématiques animées.

Que signifie le modèle de langage large ?

Pour travailler avec le langage humain à l’aide d’ordinateurs, le langage doit être défini mathématiquement. Cette approche doit être suffisamment générique pour inclure les caractéristiques distinctives de chaque langue. En 2003, des chercheurs ont découvert comment représenter le langage avec des réseaux de neurones et l’ont appelé le modèle de langage probabiliste neuronal ou LM pour faire court. Cela fonctionne comme le texte prédictif dans un téléphone portable – étant donné une séquence initiale de mots (ou de jetons), le modèle peut prédire les mots possibles suivants avec leurs probabilités respectives. En poursuivant ce processus en utilisant les mots générés précédemment en entrée (il s’agit d’autorégression) – le modèle peut générer du texte dans la langue pour laquelle il a été formé.

Lorsque je lis à propos des modèles de langage, j’entends souvent le terme “transformer”. Qu’est-ce que c’est ?

Représenter des séquences d’articles était un problème difficile pour les réseaux de neurones. Il y a eu plusieurs tentatives pour résoudre le problème (principalement autour de variations de réseaux de neurones récurrents), qui ont produit quelques idées importantes (comme l’embedding de mots, l’architecture encodeur-décodeur et le mécanisme d’attention). En 2017, un groupe de chercheurs de Google a proposé une nouvelle architecture de réseau de neurones qu’ils ont appelée un transformateur. Il a combiné toutes ces idées avec une mise en œuvre pratique efficace. Il a été conçu pour résoudre le problème de la traduction de langues (d’où le nom), mais s’est avéré efficace pour capturer les propriétés statistiques de toutes les données de séquence.

Pourquoi tout le monde parle de OpenAI ?

OpenAI a expérimenté avec des transformateurs pour construire un modèle de langage neuronal probabiliste. Les résultats de leurs expériences sont appelés modèles GPT (generative pre-trained transformer). Pré-entraîné signifie qu’ils ont formé le réseau de neurones transformateur sur un grand corpus de textes extraits d’Internet, puis pris sa partie de décodage pour la représentation du langage et la génération de texte. Il y a eu plusieurs générations de GPT :

  • GPT-1 : un modèle expérimental initial pour valider l’approche
  • GPT-2 : a démontré la capacité à générer des textes de langue humaine cohérents et l’apprentissage sans exemples – la capacité à généraliser à des domaines pour lesquels il n’a jamais été spécifiquement entraîné (par exemple, la traduction linguistique et la synthèse de texte, pour n’en nommer que quelques-uns)
  • GPT-3 était une mise à l’échelle de l’architecture (1,5 milliard de paramètres du GPT-2 contre 175 milliards du plus grand GPT-3) et a été formé sur un corps de texte plus grand et plus varié. Sa caractéristique la plus importante est la capacité à produire des textes dans une large gamme de domaines en ne voyant que quelques exemples dans la demande (d’où le terme “apprentissage en quelques exemples”) sans aucun réglage fin ou pré-formation spéciale.
  • GPT-4 : un modèle encore plus grand (les caractéristiques exactes ne sont pas divulguées), de plus grands ensembles de données d’entraînement et multimodalité (le texte est augmenté de données d’image).

Étant donné le nombre énorme de paramètres que les modèles GPT ont (en fait, il faut un énorme cluster de calcul avec des centaines à des milliers de GPU pour former et servir ces modèles), ils ont été appelés “grands modèles de langue” (LLMs en anglais).

Quelle est la différence entre GPT-3 et ChatGPT

Le GPT-3 original est toujours un moteur de prédiction de mots et est donc principalement d’intérêt pour les chercheurs en IA et les linguistes computationnels. En donnant une graine ou une demande initiale, il peut générer du texte à l’infini, ce qui a peu de sens pratique. L’équipe d’OpenAI a continué à expérimenter avec le modèle, en essayant de le régler pour traiter les demandes comme des instructions à exécuter. Ils ont alimenté un grand ensemble de données de dialogues humains et ont inventé une nouvelle approche (RLHF – apprentissage par renforcement à partir des commentaires humains) pour accélérer considérablement ce processus avec un autre réseau neuronal en tant qu’agent de validation (typique dans la recherche en IA). Ils ont publié un modèle appelé InstructGPT en tant que MVP basé sur une version plus petite de GPT-3 et ont publié en novembre 2022 une version complète appelée ChatGPT. Avec son chatbot simple et son interface web, il a changé le monde de l’informatique.

Qu’est-ce que le problème d’alignement du modèle de langue?

Étant donné que les LLM ne sont que des machines statistiques sophistiquées, le processus de génération pourrait prendre une direction inattendue et désagréable. Ce type de résultat est parfois appelé une hallucination IA, mais du point de vue algorithmique, il est toujours valide, bien qu’inattendu, par les utilisateurs humains.

Les LLM brutes nécessitent un traitement et un réglage fin supplémentaire avec des validateurs humains et RLHF, comme mentionné précédemment. Cela vise à aligner les LLM sur les attentes humaines, et il n’est pas surprenant que le processus lui-même soit appelé alignement. Il s’agit d’une procédure longue et fastidieuse avec un travail humain considérable impliqué; cela pourrait être considéré comme une assurance qualité LLM. L’alignement des modèles est ce qui distingue ChatGPT d’OpenAI/Microsoft et GPT-4 de leurs homologues open source.

Pourquoi y a-t-il un mouvement pour stopper le développement ultérieur des modèles de langue?

Les réseaux neuronaux sont des boîtes noires (un énorme tableau de nombres avec une certaine structure par-dessus). Il existe des méthodes pour explorer et déboguer leurs internes, mais les qualités de généralisation exceptionnelles des GPT restent inexpliquées. C’est la principale raison derrière le mouvement d’interdiction – certains chercheurs pensent que nous jouons avec le feu (la science-fiction nous donne des scénarios fascinants de naissance de l’AGI et de singularité technologique) avant de mieux comprendre les processus sous-jacents aux LLM.

Quels sont les cas d’utilisation pratiques des LLM?

Les plus populaires comprennent :

  • La grande synthèse de texte
  • L’inverse – générer du texte à partir d’un résumé
  • La mise en forme du texte (imiter un auteur ou un personnage)
  • L’utiliser comme tuteur personnel
  • Résoudre des exercices de mathématiques/sciences
  • Répondre aux questions sur le texte
  • Générer du code de programmation à partir de courtes descriptions

Les GPT sont-ils les seuls LLM disponibles maintenant?

Les GPT sont les modèles les plus matures avec l’accès API fourni par les services OpenAI et Microsoft Azure OpenAI (si vous avez besoin d’un abonnement privé). Mais c’est la frontière de l’IA et de nombreuses choses intéressantes se sont produites depuis la sortie de ChatGPT. Google a construit son modèle PaLM-2; Meta a publié en open source ses modèles LLaMA pour les chercheurs, ce qui a suscité de nombreuses modifications et améliorations (par exemple, Alpaca de Stanford) et l’optimisation (maintenant vous pouvez exécuter des LLM sur votre ordinateur portable et même votre smartphone).

Huggingface propose BLOOM et StarCoder ainsi que HuggingChat – qui sont entièrement open source, sans la limitation de recherche LLaMA. Databricks a formé son propre modèle Dolly entièrement open source. Lmsys.org propose son propre Vicuna LLM. L’équipe de recherche en apprentissage profond de Nvidia développe son modèle Megatron-LM. L’initiative GPT4All mérite également d’être mentionnée.

Cependant, toutes ces alternatives open source restent encore derrière les technologies principales d’OpenAI (surtout en ce qui concerne l’alignement), mais l’écart se réduit rapidement.

Comment puis-je utiliser cette technologie ?

La manière la plus simple est d’utiliser le service public d’OpenAI ou leur plateforme API playground, qui offre un accès de plus bas niveau aux modèles et plus de contrôle sur les fonctionnements internes du réseau (spécifier le contexte système, régler les paramètres de génération, etc). Mais vous devriez examiner attentivement leurs accords de service car ils utilisent les interactions des utilisateurs pour améliorer et entraîner le modèle. Alternativement, vous pouvez choisir les services Microsoft Azure OpenAI, qui fournissent la même API et les mêmes outils mais avec des instances de modèles privés.

Si vous êtes plus aventureux, vous pouvez essayer les modèles LLM hébergés par HuggingFace, mais vous devrez être plus compétent en Python et en outils de science des données. Denis Shipilov est un architecte de solutions expérimenté avec une large gamme d’expertise allant de la conception de systèmes distribués aux projets liés à Big Data et à la science des données.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Découvrez DeepOnto un package Python pour l'ingénierie ontologique avec l'apprentissage profond

Les avancées dans les méthodologies d’apprentissage profond ont un impact considérable sur la communauté de l&#...

AI

Cet article sur l'IA présente Lemur et Lemur Chat pour harmoniser le langage naturel et le code des agents linguistiques.

Dans un sens large, les agents intelligents sont des résolveurs de problèmes autonomes dotés de capacités de percepti...

AI

Pourquoi les machines peuvent-elles penser

Au 17e siècle, René Descartes a introduit une idée relativement nouvelle - le dictum cogito ergo sum (Je pense donc j...

Informatique

Le chien robotique repère mieux les nids de fourmis de feu envahissants que les humains.

Des scientifiques en Chine et au Brésil testent des chiens robots et l'intelligence artificielle (IA) pour détecter l...