Microsoft Research présente phi-1 un nouveau modèle de langage volumineux spécialisé dans la programmation Python, avec une taille significativement plus petite que les modèles concurrents.

Microsoft Research introduces phi-1, a new large language model specialized in Python programming, with a significantly smaller size than competing models.

Depuis la découverte de la conception de Transformer, l’art de l’entraînement des réseaux de neurones artificiels massifs a énormément progressé, mais la science sous-jacente à cette réalisation en est encore à ses balbutiements. Un sens de l’ordre a finalement émergé au milieu d’une pléthore de résultats écrasants et déroutants autour de la même période où les Transformers ont été lancés, montrant que les améliorations de performance augmentent de manière prévisible lorsque l’on augmente soit la quantité de calcul, soit la taille du réseau, un phénomène maintenant connu sous le nom de lois d’échelle. Ces règles d’échelle ont servi de guide pour l’étude ultérieure de l’échelle dans l’apprentissage profond, et la découverte de variations de ces lois a entraîné une augmentation considérable des performances. 

Dans cet article, les auteurs étudient la manière dont la qualité des données pourrait être améliorée selon un axe différent. Des données de meilleure qualité produisent de meilleurs résultats ; par exemple, le nettoyage des données est une étape cruciale dans la création de jeux de données actuels et peut entraîner des ensembles de données relativement plus petits ou la capacité de faire passer les données à travers plus d’itérations. Des recherches récentes sur TinyStories, un ensemble de données de haute qualité créé artificiellement pour enseigner l’anglais aux réseaux de neurones, ont démontré que les avantages des données de haute qualité vont bien au-delà de cela. En modifiant considérablement les lois d’échelle, une meilleure qualité de données peut permettre d’égaler les performances des modèles à grande échelle avec des modèles/entraînements beaucoup plus légers.

Dans cette étude, les auteurs de Microsoft Research démontrent que des données de bonne qualité peuvent améliorer encore davantage l’état de l’art des grands modèles de langage (LLM), tout en réduisant considérablement la taille de l’ensemble de données et de l’entraînement computationnel. Le coût environnemental des LLM peut être considérablement réduit par des modèles plus petits qui nécessitent moins d’entraînement. Ils construisent des fonctions Python spécifiques à partir de leurs docstrings, en utilisant des LLM entraînés pour la programmation. HumanEval, la norme d’évaluation suggérée dans le dernier article, a été fréquemment utilisée pour comparer les performances des LLM sur le code.

Ils démontrent la puissance des données de haute qualité en brisant les lois d’échelle existantes en entraînant un modèle de 1,3 milliard de paramètres, qu’ils appellent phi-1, pour environ huit passes sur 7 milliards de jetons (légèrement plus de 50 milliards de jetons au total), suivi d’un affinage sur moins de 200 millions de jetons. En gros, ils pré-entraînent sur des données de qualité “textbook”, à la fois générées de manière synthétique (avec GPT-3.5) et filtrées à partir de sources web, et ils affinent sur des données de type “exercice de manuel”. Malgré leur taille plusieurs ordres de grandeur plus petite que les modèles concurrents, tant en termes de taille de l’ensemble de données que de taille du modèle (voir Tableau 1), ils atteignent une précision de 50,6% pass@1 sur HumanEval et de 55,5% pass@1 sur MBPP (Mostly Basic Python Programs), qui sont l’un des meilleurs chiffres auto-déclarés en utilisant une seule génération de LLM.

En entraînant un modèle de 1,3 milliard de paramètres qu’ils nomment phi-1 pour environ huit passages sur 7 milliards de jetons (un peu plus de 50 milliards de jetons au total), suivi d’un affinage sur moins de 200 millions de jetons, ils démontrent la capacité des données de haute qualité à défier les règles d’échelle établies. En général, ils pré-entraînent sur des données de qualité “textbook” qui ont été créées de manière artificielle (en utilisant GPT-3.5) et filtrées à partir de sources en ligne, et ils affinent sur des données de type “exercice de manuel”. Ils atteignent une précision de 50,6% pass@1 sur HumanEval et de 55,5% pass@1 sur MBPP (Mostly Basic Python Programmes), qui est l’un des meilleurs chiffres auto-déclarés en utilisant une seule génération de LLM, malgré leur taille plusieurs ordres de grandeur plus petite que les modèles concurrents.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

NVIDIA BioNeMo permet la génération d'IA pour la découverte de médicaments sur AWS

Les chercheurs et les développeurs des principales entreprises pharmaceutiques et technologiques peuvent désormais fa...

AI

LISEZ Avatars Avatars animés par audio réaliste et contrôlables émotionnellement

L'une des limites critiques des deepfakes audio existants est le besoin d'une plus grande capacité à contrôler les at...

Actualités sur l'IA

Comment BrainPad favorise le partage interne de connaissances avec Amazon Kendra

Ce post discute de la façon de structurer le partage interne de connaissances en utilisant Amazon Kendra et AWS Lambd...

AI

Qu'est-ce que le bruit en traitement d'image ? – Une introduction

Explorez les différents types, causes, modèles et applications du bruit en traitement d'image.

AI

L'AIIMS Delhi commence à mener des recherches sur la robotique, l'IA et les drones pour la santé.

Dans le but de rester en avance dans le monde en constante évolution de la santé, le prestigieux All India Institute ...

AI

Décoder le comportement collectif Comment l'inférence bayésienne active alimente les mouvements naturels des groupes d'animaux

Le phénomène du mouvement collectif chez les animaux observé dans des activités telles que les essaims de sauterelles...