Falcon Le pinacle des LLM open-source

Falcon L'apogée des LLM open-source

L’écart entre les LLM open-source et propriétaires ne cesse de se réduire…

(Photo by Alan Mersom on Unsplash) — (Photo de Alan Mersom sur Unsplash)

La recherche récente sur les modèles de langage LLM open-source a principalement porté sur deux domaines : l’apprentissage par imitation et la préformation de modèles de base open-source. Bien que les deux approches soient viables, la création de modèles de base open-source de haute qualité est particulièrement attrayante, car ces modèles peuvent être affinés ultérieurement (à moindre coût) et utilisés dans une variété d’applications différentes. Les premières tentatives de création de ces modèles ont échoué. Bien que les modèles ultérieurs (comme LLaMA et MPT-7B) soient bien meilleurs, ces modèles ont eu du mal à égaler la qualité de leurs homologues propriétaires (comme GPT-3.5 ou GPT-4) jusqu’à récemment.

Avec la sortie des modèles LLM Falcon-7B et Falcon-40B [1], nous constatons – pour la première fois – des modèles de base LLM open-source qui commencent à rivaliser avec la qualité des modèles payants les plus populaires. Ces modèles, formés sur un important corpus textuel obtenu via un nouveau pipeline de données, atteignent (avec une marge décente) de nouvelles performances de pointe parmi les LLM open-source et sont gratuits pour une utilisation commerciale. Pour améliorer les choses, les modèles Falcon adoptent plusieurs modifications de leur architecture de transformateur sous-jacente qui accélèrent considérablement l’inférence et peuvent même améliorer l’efficacité de la préformation.

Le tableau d’ensemble. Le processus de création d’un LLM comprend plusieurs étapes ; voir ci-dessous. La première étape de ce processus (c’est-à-dire l’obtention d’un modèle de base préformé) est largement reconnue comme la plus coûteuse, tant en termes d’argent que de temps.

Processus en plusieurs étapes pour la création et le perfectionnement d'un LLM (de [16,17]) — Processus en plusieurs étapes pour la création et le perfectionnement d’un LLM (de [16,17])

De tels modèles étaient auparavant gardés derrière des interfaces de programmation propriétaires, mais les avancées dans les LLM open-source ont rendu les LLM de base performants davantage accessibles au public. Falcon est un autre modèle de cette catégorie, et il atteint des niveaux de performance sans précédent par rapport à d’autres alternatives open-source.

Utilisation de données Web pour la préformation de LLM

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

Falcon Le pinacle des LLM open-source

Falcon L'apogée des LLM open-source

L’écart entre les LLM open-source et propriétaires ne cesse de se réduire…

Utilisation de données Web pour la préformation de LLM

Was this article helpful?

Découvrez Mini-DALLE3 Une approche interactive texte-image en sollicitant de grands modèles de langage.

Questions d’entretien de probabilité dans la vie réelle des analystes de données

AI

Cet article d'IA présente BioCLIP en exploitant l'ensemble de données TreeOfLife-10M pour transformer la vision par ordinateur en biologie et en conservation

Comment le nouveau paradigme de l'IA de Google élimine-t-il le coût de composition dans les algorithmes d'apprentissage automatique à plusieurs étapes pour une utilité améliorée?

Des images détaillées de l'espace offrent une image plus claire des effets de la sécheresse sur les plantes.

Cet article sur l'IA propose Blending-NeRF qui est constitué d'un NeRF pré-entraîné et d'un NeRF modifiable pour l'édition d'objets 3D localisés pilotée par le texte.

Découvrez Brain2Music une méthode d'IA pour reconstruire de la musique à partir de l'activité cérébrale capturée à l'aide de l'imagerie par résonance magnétique fonctionnelle (IRMf).

Découvrez Gradio-lite une bibliothèque JavaScript qui élève la bibliothèque Gradio basée sur l'apprentissage automatique interactif jusqu'au navigateur avec Pyodide.