8 Modèles linguistiques larges et nouveaux à surveiller
8 nouveaux modèles linguistiques à surveiller
Nous entendons beaucoup parler récemment des grands modèles linguistiques, ou LLM, dans les actualités. Si vous ne le savez pas, les LLM sont un type d’intelligence artificielle formé sur de grandes quantités de données textuelles. Cela leur permet de générer du texte souvent indiscernable du texte écrit par un humain, comme ChatGPT. En raison de cela, les LLM ont un large éventail d’applications potentielles, notamment dans les domaines du traitement du langage naturel, de la traduction automatique et de la génération de texte.
Cela étant dit, voici quelques-uns des LLM plus récents et tendances qui méritent d’être surveillés.
RWKV
- Comment l’IA générative est devenue une compétence indispensable
- Déboguez les modèles de détection d’objets avec le tableau de bord de l’IA responsable
- 5 Considérations éthiques pour l’IA générative
En espérant combiner les forces des transformateurs puissants avec l’efficacité des RNN, RWKV espère combiner les meilleures caractéristiques des deux. L’espoir est que RWKV puisse atteindre des performances de pointe avec des coûts de calcul réduits. En cas de succès, cela pourrait conduire à des modèles de TAL plus efficaces à l’avenir.
Palm 2
PaLM 2 est un nouveau modèle linguistique qui est plus multilingue, plus efficace et possède de meilleures capacités de raisonnement que son prédécesseur, PaLM. Il s’agit d’un modèle basé sur les transformateurs formé à l’aide d’un mélange d’objectifs similaires à UL2. PaLM 2 a montré une amélioration significative de la qualité sur des tâches ultérieures avec différentes tailles de modèles, tout en présentant simultanément une inférence plus rapide et plus efficace par rapport à PaLM. PaLM 2 démontre également des capacités de raisonnement robustes et des performances stables sur une série d’évaluations d’IA responsables.
Pythia
Pythia est une suite de 16 LLM formés sur les mêmes données publiques qui peuvent être utilisés pour étudier le développement et l’évolution des LLM. Elle a également été utilisée pour étudier la mémorisation, les effets de la fréquence des termes sur quelques performances courtes et la réduction des biais de genre. Les modèles varient en taille de 70M à 12B de paramètres. Pythia est disponible publiquement et comprend des outils pour télécharger et reconstruire les chargeurs de données d’entraînement.
GPT – 4
GPT-4 est un modèle multimodal à grande échelle capable d’accepter des entrées d’images et de texte et de produire des sorties de texte. Il présente des performances de niveau humain sur diverses références professionnelles et académiques, y compris la réussite d’un examen de barreau simulé. Il s’agit d’un modèle basé sur les transformateurs pré-entraîné pour prédire le token suivant dans un document. Le processus d’alignement post-entraînement permet d’améliorer les performances en termes de véracité et de respect d’un comportement souhaité. GPT-4 est l’un des LLM les plus connus de cette liste et a déjà montré des prouesses incroyables grâce à des ingénieurs prompts créatifs.
Kosmos
Kosmos-1 est un modèle linguistique multimodal capable de percevoir des modalités générales, d’apprendre dans un contexte et de suivre des instructions. Il a été formé sur des corpus multimodaux à grande échelle, comprenant du texte et des images. Kosmos-1 atteint des performances impressionnantes sur un large éventail de tâches, notamment la compréhension, la génération et la perception du langage. Il peut également bénéficier du transfert cross-modal, ce qui lui permet de transférer des connaissances du langage au multimodal et du multimodal au langage.
LLaMA
LLaMA de Meta, qui signifie “Large Language Model from scratch with Annotated Massive Text”, varie en taille de 7B à 65B de paramètres. LLaMA a été formé sur des ensembles de données disponibles publiquement. LLaMA montre qu’il est possible de former des modèles linguistiques de pointe en utilisant uniquement des données disponibles publiquement et que LLaMA-13B surpasse GPT-3 (175B) sur la plupart des références. LLaMA-65B est compétitif avec les meilleurs modèles, Chinchilla70B et PaLM-540B. Actuellement, ces modèles n’ont été publiés que pour la communauté de recherche au cas par cas.
Vicuna
Vicuna-13B est un chatbot open-source formé en ajustant finement LLaMA sur des conversations partagées par les utilisateurs, qui ont été collectées à partir de ShareGPT. Inspiré par le projet Meta LLaMA et Stanford Alpaca, Vicuna-13B est soutenu par un ensemble de données amélioré et une infrastructure évolutive facile à utiliser. L’objectif de ce LLM est de supprimer les barrières entravant la portée et l’innovation open-source dans le domaine.
Dolly
Dolly 2.0 est un modèle linguistique de 12B de paramètres qui est open-source et fait partie des rares LLM de cette liste pouvant être utilisés à des fins commerciales. Dolly 2.0 a été formé sur un ensemble de données de 15 000 paires d’instructions générées par des humains. L’ensemble de données a été créé par les employés de Databricks et contient une variété de tâches, telles que des questions ouvertes et fermées, l’extraction d’informations de Wikipedia, la synthèse d’informations de Wikipedia, le brainstorming, la classification et l’écriture créative.
Conclusion
Plutôt sympa non ? Eh bien, il y a beaucoup plus à apprendre sur les grands modèles linguistiques, mais vous n’avez pas à vous soucier de chercher sur le Web pour cela. ODSC s’occupe de vous avec le Sommet de l’IA générative – une conférence virtuelle gratuite qui se déroulera le 20 juillet et réunira les esprits les plus brillants qui font progresser l’IA générative. Obtenez votre pass aujourd’hui et découvrez par vous-même les dernières avancées en matière de LLM, d’IA générative et de leur impact dans différents secteurs.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Construction de systèmes LLM fiables avec des plans
- Pourquoi l’IA est devenue la compétence de développement la plus recherchée de 2023
- Toutes les sessions virtuelles gratuites à venir pour ODSC Europe 2023
- Mieux comprendre l’économie avec la piste de ML pour la finance de ODSC Europe
- Annonce du nouveau tutoriel de Microsoft Azure sur l’apprentissage profond et le traitement automatique du langage naturel
- Visionnez ici les meilleures sessions virtuelles de l’ODSC Europe 2023
- Photos et Moments forts de l’ODSC Europe 2023