Des chercheurs d’Inception, de MBZUAI et de Cerebras ont ouvert en open source Jais le modèle de langage arabe le plus avancé au monde.

Researchers from Inception, MBZUAI, and Cerebras have open-sourced Jais, the world's most advanced Arabic language model.

Les grands modèles linguistiques tels que GPT-3 et leur impact sur divers aspects de la société suscitent un intérêt et un débat importants. Les grands modèles linguistiques ont considérablement fait avancer le domaine du traitement automatique du langage naturel (TALN). Ils ont amélioré la précision de diverses tâches liées au langage, notamment la traduction, l’analyse des sentiments, la résumé et la question-réponse. Les chatbots et les assistants virtuels alimentés par de grands modèles linguistiques deviennent de plus en plus sophistiqués et capables de gérer des conversations complexes. Ils sont utilisés dans le support client, les services de chat en ligne, et même pour certains utilisateurs en tant que compagnons.

La construction de grands modèles linguistiques arabes (LLM) présente des défis uniques en raison des caractéristiques de la langue arabe et de la diversité de ses dialectes. Tout comme les grands modèles linguistiques dans d’autres langues, les LLM arabes peuvent hériter de biais des données d’entraînement. La prise en compte de ces biais et la garantie d’une utilisation responsable de l’IA dans les contextes arabes sont des préoccupations constantes.

Les chercheurs d’Inception, Cerebras et de l’Université d’Intelligence Artificielle Mohamed bin Zayed (EAU) ont présenté Jais et Jais-chat, un nouveau modèle linguistique basé sur la langue arabe. Leur modèle est basé sur l’architecture de pré-formation générative GPT-3 et utilise seulement 13 milliards de paramètres.

Leur principal défi était d’obtenir des données arabes de haute qualité pour l’entraînement du modèle. Comparées aux données anglaises, qui comportent des corpus pouvant contenir jusqu’à deux billions de jetons, elles étaient facilement disponibles, mais les corpus arabes étaient nettement plus petits. Les corpus sont de grandes collections structurées de textes utilisées en linguistique, en traitement automatique du langage naturel (TALN) et en analyse de texte à des fins de recherche et d’entraînement des modèles linguistiques. Les corpus sont des ressources précieuses pour l’étude des schémas linguistiques, de la sémantique, de la grammaire et plus encore.

Pour résoudre ce problème, ils ont entraîné des modèles bilingues en augmentant les données arabes d’entraînement limitées avec des données anglaises d’entraînement abondantes. Ils ont pré-entraîné Jais sur 395 milliards de jetons, dont 72 milliards en arabe et 232 milliards en anglais. Ils ont développé un pipeline de traitement de texte arabe spécialisé comprenant un filtrage et un nettoyage minutieux des données pour produire des données arabes de haute qualité.

Ils affirment que les capacités pré-entrainées et affinées de leur modèle surpassent tous les modèles arabes open-source connus et sont comparables aux modèles anglais open-source de pointe qui ont été entraînés sur des ensembles de données plus importants. Compte tenu des préoccupations de sécurité inhérentes aux LLM, ils l’ont en outre affiné avec des instructions axées sur la sécurité. Ils ont ajouté des garde-fous supplémentaires sous la forme de consignes de sécurité, de filtrage basé sur des mots-clés et de classificateurs externes.

Ils affirment que Jais représente une évolution et une expansion importantes du paysage du TALN et de l’IA au Moyen-Orient. Il fait progresser la compréhension et la génération de la langue arabe, donnant aux acteurs locaux des options de déploiement souveraines et privées et favorisant un écosystème dynamique d’applications et d’innovation. Ce travail soutient une initiative stratégique plus large de transformation numérique et d’IA pour ouvrir une ère plus inclusive sur le plan linguistique et culturel.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Maîtrisez le traitement par lots des données avec le Kit de Données Polyvalent (VDK)

Le Kit de Données Polyvalent (VDK) est un cadre d'ingestion et de traitement de données open-source conçu pour simpli...

Apprentissage automatique

Inférence variationnelle Les bases

Nous vivons à l'ère de la quantification. Mais une quantification rigoureuse est plus facile à dire qu'à faire. Dans ...

AI

Déverrouiller le succès de la modélisation des données 3 tables contextuelles indispensables

La modélisation des données peut être une tâche difficile pour les équipes d'analyse. Avec des entités commerciales u...

AI

Crise chez Stability AI - Les acteurs clés démissionnent au milieu des controverses du PDG !

La startup basée à Londres, Stability AI Ltd., a autrefois ébloui le monde de la technologie avec son modèle révoluti...

AI

Exploiter la neuroévolution pour l'innovation en IA

Introduction La neuroévolution est un domaine captivant où l’IA fusionne les réseaux neuronaux et les algorithm...

AI

ChatGPT Des suggestions pour stimuler votre créativité

Vous avez du mal à penser à de bonnes idées ? Externalisez votre créativité à ChatGPT.