Microsoft Research présente phi-1 un nouveau modèle de langage volumineux spécialisé dans la programmation Python, avec une taille significativement plus petite que les modèles concurrents.
Microsoft Research introduces phi-1, a new large language model specialized in Python programming, with a significantly smaller size than competing models.
Depuis la découverte de la conception de Transformer, l’art de l’entraînement des réseaux de neurones artificiels massifs a énormément progressé, mais la science sous-jacente à cette réalisation en est encore à ses balbutiements. Un sens de l’ordre a finalement émergé au milieu d’une pléthore de résultats écrasants et déroutants autour de la même période où les Transformers ont été lancés, montrant que les améliorations de performance augmentent de manière prévisible lorsque l’on augmente soit la quantité de calcul, soit la taille du réseau, un phénomène maintenant connu sous le nom de lois d’échelle. Ces règles d’échelle ont servi de guide pour l’étude ultérieure de l’échelle dans l’apprentissage profond, et la découverte de variations de ces lois a entraîné une augmentation considérable des performances.
Dans cet article, les auteurs étudient la manière dont la qualité des données pourrait être améliorée selon un axe différent. Des données de meilleure qualité produisent de meilleurs résultats ; par exemple, le nettoyage des données est une étape cruciale dans la création de jeux de données actuels et peut entraîner des ensembles de données relativement plus petits ou la capacité de faire passer les données à travers plus d’itérations. Des recherches récentes sur TinyStories, un ensemble de données de haute qualité créé artificiellement pour enseigner l’anglais aux réseaux de neurones, ont démontré que les avantages des données de haute qualité vont bien au-delà de cela. En modifiant considérablement les lois d’échelle, une meilleure qualité de données peut permettre d’égaler les performances des modèles à grande échelle avec des modèles/entraînements beaucoup plus légers.
Dans cette étude, les auteurs de Microsoft Research démontrent que des données de bonne qualité peuvent améliorer encore davantage l’état de l’art des grands modèles de langage (LLM), tout en réduisant considérablement la taille de l’ensemble de données et de l’entraînement computationnel. Le coût environnemental des LLM peut être considérablement réduit par des modèles plus petits qui nécessitent moins d’entraînement. Ils construisent des fonctions Python spécifiques à partir de leurs docstrings, en utilisant des LLM entraînés pour la programmation. HumanEval, la norme d’évaluation suggérée dans le dernier article, a été fréquemment utilisée pour comparer les performances des LLM sur le code.
- Les chercheurs de Stanford présentent SequenceMatch Entraînement des LLMs avec une perte d’apprentissage par imitation.
- Des chercheurs de Princeton présentent Infinigen un générateur procédural de scènes 3D photoréalistes du monde naturel.
- Des chercheurs de l’Allen Institute for AI présentent VISPROG une approche neuro-symbolique pour résoudre des tâches visuelles complexes et compositionnelles en suivant des instructions en langage naturel.
Ils démontrent la puissance des données de haute qualité en brisant les lois d’échelle existantes en entraînant un modèle de 1,3 milliard de paramètres, qu’ils appellent phi-1, pour environ huit passes sur 7 milliards de jetons (légèrement plus de 50 milliards de jetons au total), suivi d’un affinage sur moins de 200 millions de jetons. En gros, ils pré-entraînent sur des données de qualité “textbook”, à la fois générées de manière synthétique (avec GPT-3.5) et filtrées à partir de sources web, et ils affinent sur des données de type “exercice de manuel”. Malgré leur taille plusieurs ordres de grandeur plus petite que les modèles concurrents, tant en termes de taille de l’ensemble de données que de taille du modèle (voir Tableau 1), ils atteignent une précision de 50,6% pass@1 sur HumanEval et de 55,5% pass@1 sur MBPP (Mostly Basic Python Programs), qui sont l’un des meilleurs chiffres auto-déclarés en utilisant une seule génération de LLM.
En entraînant un modèle de 1,3 milliard de paramètres qu’ils nomment phi-1 pour environ huit passages sur 7 milliards de jetons (un peu plus de 50 milliards de jetons au total), suivi d’un affinage sur moins de 200 millions de jetons, ils démontrent la capacité des données de haute qualité à défier les règles d’échelle établies. En général, ils pré-entraînent sur des données de qualité “textbook” qui ont été créées de manière artificielle (en utilisant GPT-3.5) et filtrées à partir de sources en ligne, et ils affinent sur des données de type “exercice de manuel”. Ils atteignent une précision de 50,6% pass@1 sur HumanEval et de 55,5% pass@1 sur MBPP (Mostly Basic Python Programmes), qui est l’un des meilleurs chiffres auto-déclarés en utilisant une seule génération de LLM, malgré leur taille plusieurs ordres de grandeur plus petite que les modèles concurrents.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Des chercheurs développent une nouvelle source de lumière quantique
- Une nouvelle recherche en intelligence artificielle de Stanford, Cornell et Oxford présente un modèle génératif qui découvre les intrinsèques d’objet à partir de seulement quelques instances dans une seule image.
- Des chercheurs de l’UC Berkeley et de Meta AI proposent un modèle de reconnaissance d’action lagrangien en fusionnant la pose 3D et l’apparence contextualisée sur les tracklets.
- S’attaquer à l’écart de généralisation de l’IA des chercheurs de l’University College London proposent Spawrious – une suite de référence pour la classification d’images contenant des corrélations spurious entre les classes et les arrière-plans.
- Révolutionner la synthèse texte-image des chercheurs de l’UC Berkeley utilisent des modèles de langage volumineux dans un processus de génération en deux étapes pour améliorer la compréhension spatiale et le sens commun.
- Des chercheurs de Meta AI et de Samsung ont introduit deux nouvelles méthodes d’IA, Prodigy et Resetting, pour l’adaptation du taux d’apprentissage qui améliorent le taux d’adaptation de la méthode D-Adaptation de pointe.
- Des chercheurs de l’Université de Surrey ont mis au point un outil révolutionnaire de détection d’objets basé sur des croquis en apprentissage automatique.