Falcon Le pinacle des LLM open-source

Falcon L'apogée des LLM open-source

L’écart entre les LLM open-source et propriétaires ne cesse de se réduire…

(Photo by Alan Mersom on Unsplash)

La recherche récente sur les modèles de langage LLM open-source a principalement porté sur deux domaines : l’apprentissage par imitation et la préformation de modèles de base open-source. Bien que les deux approches soient viables, la création de modèles de base open-source de haute qualité est particulièrement attrayante, car ces modèles peuvent être affinés ultérieurement (à moindre coût) et utilisés dans une variété d’applications différentes. Les premières tentatives de création de ces modèles ont échoué. Bien que les modèles ultérieurs (comme LLaMA et MPT-7B) soient bien meilleurs, ces modèles ont eu du mal à égaler la qualité de leurs homologues propriétaires (comme GPT-3.5 ou GPT-4) jusqu’à récemment.

Avec la sortie des modèles LLM Falcon-7B et Falcon-40B [1], nous constatons – pour la première fois – des modèles de base LLM open-source qui commencent à rivaliser avec la qualité des modèles payants les plus populaires. Ces modèles, formés sur un important corpus textuel obtenu via un nouveau pipeline de données, atteignent (avec une marge décente) de nouvelles performances de pointe parmi les LLM open-source et sont gratuits pour une utilisation commerciale. Pour améliorer les choses, les modèles Falcon adoptent plusieurs modifications de leur architecture de transformateur sous-jacente qui accélèrent considérablement l’inférence et peuvent même améliorer l’efficacité de la préformation.

(from [1, 2])

Le tableau d’ensemble. Le processus de création d’un LLM comprend plusieurs étapes ; voir ci-dessous. La première étape de ce processus (c’est-à-dire l’obtention d’un modèle de base préformé) est largement reconnue comme la plus coûteuse, tant en termes d’argent que de temps.

Processus en plusieurs étapes pour la création et le perfectionnement d'un LLM (de [16,17])

De tels modèles étaient auparavant gardés derrière des interfaces de programmation propriétaires, mais les avancées dans les LLM open-source ont rendu les LLM de base performants davantage accessibles au public. Falcon est un autre modèle de cette catégorie, et il atteint des niveaux de performance sans précédent par rapport à d’autres alternatives open-source.

Utilisation de données Web pour la préformation de LLM

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

La direction du numérique l'IA générative dans le cinéma et le divertissement

Introduction Lumières, caméra, IA ! Nous avons toujours été intrigués par la magie du cinéma, qui emmène les spectate...

AI

Durabilité de nos stagiaires Cultiver la prochaine génération au milieu de la marche corporative de l'IA

Pendant mon enseignement au Master en Management de l’ESSEC Asie-Pacifique sur le campus dynamique de Singapour...

AI

15 Communautés de sous-reddit relatives à l'intelligence artificielle (IA) et à l'apprentissage automatique en 2023

Dans le monde rapide de l’Intelligence Artificielle (IA) et de l’Apprentissage Automatique, il est crucia...

AI

Que peuvent faire les croquis humains pour la détection d'objets ? Perspectives sur la recherche d'images basée sur les croquis

Depuis la préhistoire, les humains ont utilisé des croquis pour transmettre et documenter des idées. Même en présence...

AI

Une nouvelle recherche en IA de KAIST présente FLASK un cadre d'évaluation à grain fin pour les modèles de langage basé sur des ensembles de compétences

Incrediblement, les LLM ont prouvé qu’ils correspondaient aux valeurs humaines, fournissant des réponses utiles...

AI

L'IA surveille le vol de colis pour UPS

UPS et d'autres grandes entreprises de logistique déploient des technologies pour réduire les vols de colis devant le...