Falcon Le pinacle des LLM open-source

Falcon L'apogée des LLM open-source

L’écart entre les LLM open-source et propriétaires ne cesse de se réduire…

(Photo by Alan Mersom on Unsplash)

La recherche récente sur les modèles de langage LLM open-source a principalement porté sur deux domaines : l’apprentissage par imitation et la préformation de modèles de base open-source. Bien que les deux approches soient viables, la création de modèles de base open-source de haute qualité est particulièrement attrayante, car ces modèles peuvent être affinés ultérieurement (à moindre coût) et utilisés dans une variété d’applications différentes. Les premières tentatives de création de ces modèles ont échoué. Bien que les modèles ultérieurs (comme LLaMA et MPT-7B) soient bien meilleurs, ces modèles ont eu du mal à égaler la qualité de leurs homologues propriétaires (comme GPT-3.5 ou GPT-4) jusqu’à récemment.

Avec la sortie des modèles LLM Falcon-7B et Falcon-40B [1], nous constatons – pour la première fois – des modèles de base LLM open-source qui commencent à rivaliser avec la qualité des modèles payants les plus populaires. Ces modèles, formés sur un important corpus textuel obtenu via un nouveau pipeline de données, atteignent (avec une marge décente) de nouvelles performances de pointe parmi les LLM open-source et sont gratuits pour une utilisation commerciale. Pour améliorer les choses, les modèles Falcon adoptent plusieurs modifications de leur architecture de transformateur sous-jacente qui accélèrent considérablement l’inférence et peuvent même améliorer l’efficacité de la préformation.

(from [1, 2])

Le tableau d’ensemble. Le processus de création d’un LLM comprend plusieurs étapes ; voir ci-dessous. La première étape de ce processus (c’est-à-dire l’obtention d’un modèle de base préformé) est largement reconnue comme la plus coûteuse, tant en termes d’argent que de temps.

Processus en plusieurs étapes pour la création et le perfectionnement d'un LLM (de [16,17])

De tels modèles étaient auparavant gardés derrière des interfaces de programmation propriétaires, mais les avancées dans les LLM open-source ont rendu les LLM de base performants davantage accessibles au public. Falcon est un autre modèle de cette catégorie, et il atteint des niveaux de performance sans précédent par rapport à d’autres alternatives open-source.

Utilisation de données Web pour la préformation de LLM

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Cet article d'IA présente BioCLIP en exploitant l'ensemble de données TreeOfLife-10M pour transformer la vision par ordinateur en biologie et en conservation

De nombreuses branches de la biologie, dont l’écologie, la biologie évolutive et la biodiversité, se tournent d...

Recherche en IA

Des images détaillées de l'espace offrent une image plus claire des effets de la sécheresse sur les plantes.

Les chercheurs de J-WAFS utilisent des observations par télédétection pour construire des systèmes haute résolution a...

AI

Cet article sur l'IA propose Blending-NeRF qui est constitué d'un NeRF pré-entraîné et d'un NeRF modifiable pour l'édition d'objets 3D localisés pilotée par le texte.

Les industries, y compris la peinture, la conception de produits et l’animation, sont significativement impacté...

AI

Découvrez Gradio-lite une bibliothèque JavaScript qui élève la bibliothèque Gradio basée sur l'apprentissage automatique interactif jusqu'au navigateur avec Pyodide.

Gradio est une bibliothèque Python open-source qui simplifie la création d’interfaces utilisateur pour les modè...