Découvrez PolyLM (Polyglot Large Language Model) un modèle linguistique multilingue LLM open source entraîné sur 640 milliards de jetons, disponible en deux tailles de modèle 1,7 milliard et 13 milliards.

Découvrez PolyLM, un modèle linguistique multilingue LLM open source entraîné sur 640 milliards de jetons, disponible en deux tailles 1,7 milliard et 13 milliards.

Avec l’introduction récente des modèles de langage volumineux (LLM), leur polyvalence et leurs capacités ont suscité l’intérêt de tous dans le secteur de l’intelligence artificielle. Ces modèles ont été entraînés sur d’énormes quantités de données et possèdent des capacités brillantes d’imitation humaine en matière de compréhension, de raisonnement et de génération de texte basé sur des instructions en langage naturel. Avec de bonnes performances dans les tâches à zéro et à quelques exemples, ces modèles peuvent relever des défis imprévus en se perfectionnant sur divers ensembles de tâches.

Les LLM actuels et leur développement se concentrent sur l’anglais et les langues riches en ressources. La plupart des LLM existants ont été spécifiquement conçus et entraînés pour l’anglais, ce qui entraîne un biais prédominant en faveur de l’anglais dans la recherche et le développement de ces modèles. Pour remédier à cette limitation, une équipe de chercheurs de DAMO Academy et d’Alibaba Group a proposé un modèle LLM multilingue appelé POLYLM (Polyglot Large Language Model). Contrairement aux LLM multilingues existants qui manquent d’un modèle de 13 milliards d’unités, l’équipe a publié POLYLM-13B et POLYLM-1.7B pour faciliter son utilisation.

POLYLM a été construit à l’aide d’un ensemble de données massif de 640 milliards de tokens provenant de sources accessibles au public, notamment Wikipedia, mC4 et CC-100. L’équipe a également proposé une technique d’apprentissage curriculaire pour résoudre le problème du manque de données pour les langues à faible ressource. Cette méthode consiste à augmenter progressivement le ratio de langues de haute qualité et à faible ressource pendant la formation, tout en se concentrant initialement davantage sur l’anglais. L’accent a été mis sur le transfert de connaissances générales de l’anglais vers d’autres langues.

L’équipe a également développé MULTIALPACA, un ensemble de données d’instructions multilingue, pour la phase de perfectionnement supervisé (SFT). Les ensembles de données SFT multilingues existants sont obtenus soit par annotation manuelle, ce qui est long et coûteux, soit par traduction automatique, ce qui peut entraîner des erreurs de traduction et ne tient pas compte des nuances culturelles. Cette approche d’auto-instruction multilingue fournit automatiquement des données d’instruction multilingue de haute qualité pour surmonter ces restrictions et utilise des données d’origine en anglais, des traductions dans de nombreuses langues, la production d’instructions et des systèmes de filtrage.

Pour l’évaluation et l’évaluation des capacités multilingues des LLM, l’équipe a développé un benchmark dérivé de tâches multilingues existantes, notamment la réponse aux questions, la compréhension du langage, la génération de texte et la traduction automatique entre les langues. Le benchmark a été développé avec des instructions minutieuses et couvre dix tâches dans 15 langues. L’équipe a démontré grâce à des expériences approfondies que leur modèle pré-entraîné surpasse les modèles open-source de taille comparable dans les langues autres que l’anglais. La stratégie d’apprentissage curriculaire proposée améliore les performances multilingues tout en maintenant une compétence en anglais. L’utilisation de données d’instruction multilingues améliore également considérablement la capacité de POLYLM à relever des tâches multilingues à zéro exemple.

L’équipe a résumé les contributions comme suit.

  1. Un modèle performant à l’échelle de 13 milliards a été réalisé, qui fonctionne bien dans les principales langues autres que l’anglais telles que l’espagnol, le russe, l’arabe, le japonais, le coréen, le thaï, l’indonésien et le chinois. Ce modèle complète les modèles open-source existants qui manquent de compétences dans ces langues ou qui ont des versions plus petites sans les mêmes capacités.
  1. Une approche avancée d’apprentissage curriculaire a été proposée pour faciliter le transfert de connaissances générales, principalement acquises en anglais, vers diverses langues autres que l’anglais et des tâches spécifiques de traitement du langage naturel, telles que la traduction automatique.
  1. Un ensemble de données appelé MULTIALPACA a été proposé pour compléter les ensembles de données d’instructions existants, permettant aux LLM de mieux suivre les instructions multilingues, notamment celles des locuteurs non natifs de l’anglais.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Artiste Co-créativité et collaboration homme-ordinateur dans les arts

Loin d'être menacés par l'intelligence artificielle, de nombreux praticiens créatifs l'embrassent déjà, avec des résu...

AI

Faites la connaissance des hackers qui tentent de rendre l'IA incontrôlable

Les chatbots peuvent être biaisés, trompeurs voire dangereux. Les pirates informatiques rivalisent pour découvrir exa...

AI

Découvrez cinq innovateurs en IA générative en Afrique et au Moyen-Orient

Les entrepreneurs cultivent l’IA générative de la côte ouest de l’Afrique jusqu’à la frontière est ...

AI

Les GPU NVIDIA H100 sont désormais disponibles sur le cloud AWS

Les utilisateurs d’AWS peuvent désormais accéder aux performances de pointe démontrées dans les benchmarks indu...

AI

Prix Gordon Bell décerné pour les simulations de matériaux qui atteignent une précision quantique à grande échelle

Une équipe de chercheurs provenant d'institutions américaines et indiennes s'est vu décerner le prix Gordon Bell 2023...

AI

Découvrez Verba un outil open source pour construire votre propre pipeline de génération augmentée de récupération RAG et utiliser des LLMs pour des sorties internes.

Verba est un projet open-source visant à fournir des applications RAG avec une interface simplifiée et conviviale. On...