Des chercheurs d’Inception, de MBZUAI et de Cerebras ont ouvert en open source Jais le modèle de langage arabe le plus avancé au monde.
Researchers from Inception, MBZUAI, and Cerebras have open-sourced Jais, the world's most advanced Arabic language model.
Les grands modèles linguistiques tels que GPT-3 et leur impact sur divers aspects de la société suscitent un intérêt et un débat importants. Les grands modèles linguistiques ont considérablement fait avancer le domaine du traitement automatique du langage naturel (TALN). Ils ont amélioré la précision de diverses tâches liées au langage, notamment la traduction, l’analyse des sentiments, la résumé et la question-réponse. Les chatbots et les assistants virtuels alimentés par de grands modèles linguistiques deviennent de plus en plus sophistiqués et capables de gérer des conversations complexes. Ils sont utilisés dans le support client, les services de chat en ligne, et même pour certains utilisateurs en tant que compagnons.
La construction de grands modèles linguistiques arabes (LLM) présente des défis uniques en raison des caractéristiques de la langue arabe et de la diversité de ses dialectes. Tout comme les grands modèles linguistiques dans d’autres langues, les LLM arabes peuvent hériter de biais des données d’entraînement. La prise en compte de ces biais et la garantie d’une utilisation responsable de l’IA dans les contextes arabes sont des préoccupations constantes.
Les chercheurs d’Inception, Cerebras et de l’Université d’Intelligence Artificielle Mohamed bin Zayed (EAU) ont présenté Jais et Jais-chat, un nouveau modèle linguistique basé sur la langue arabe. Leur modèle est basé sur l’architecture de pré-formation générative GPT-3 et utilise seulement 13 milliards de paramètres.
- ANPR avec YOLOV8
- Apprentissage profond efficace libérer la puissance de la compression de modèle
- Le fondu contrôlé
Leur principal défi était d’obtenir des données arabes de haute qualité pour l’entraînement du modèle. Comparées aux données anglaises, qui comportent des corpus pouvant contenir jusqu’à deux billions de jetons, elles étaient facilement disponibles, mais les corpus arabes étaient nettement plus petits. Les corpus sont de grandes collections structurées de textes utilisées en linguistique, en traitement automatique du langage naturel (TALN) et en analyse de texte à des fins de recherche et d’entraînement des modèles linguistiques. Les corpus sont des ressources précieuses pour l’étude des schémas linguistiques, de la sémantique, de la grammaire et plus encore.
Pour résoudre ce problème, ils ont entraîné des modèles bilingues en augmentant les données arabes d’entraînement limitées avec des données anglaises d’entraînement abondantes. Ils ont pré-entraîné Jais sur 395 milliards de jetons, dont 72 milliards en arabe et 232 milliards en anglais. Ils ont développé un pipeline de traitement de texte arabe spécialisé comprenant un filtrage et un nettoyage minutieux des données pour produire des données arabes de haute qualité.
Ils affirment que les capacités pré-entrainées et affinées de leur modèle surpassent tous les modèles arabes open-source connus et sont comparables aux modèles anglais open-source de pointe qui ont été entraînés sur des ensembles de données plus importants. Compte tenu des préoccupations de sécurité inhérentes aux LLM, ils l’ont en outre affiné avec des instructions axées sur la sécurité. Ils ont ajouté des garde-fous supplémentaires sous la forme de consignes de sécurité, de filtrage basé sur des mots-clés et de classificateurs externes.
Ils affirment que Jais représente une évolution et une expansion importantes du paysage du TALN et de l’IA au Moyen-Orient. Il fait progresser la compréhension et la génération de la langue arabe, donnant aux acteurs locaux des options de déploiement souveraines et privées et favorisant un écosystème dynamique d’applications et d’innovation. Ce travail soutient une initiative stratégique plus large de transformation numérique et d’IA pour ouvrir une ère plus inclusive sur le plan linguistique et culturel.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Outils de visioconférence les plus performants en 2023
- Le paysage actuel du leadership en matière de données et de technologie – Le directeur de l’IA remplacera-t-il le directeur de la numérisation?
- Choisir la bonne stratégie GPU pour votre projet d’intelligence artificielle
- Commencer avec les structures de données Python en 5 étapes
- Cet article sur l’IA présente le score de raisonnement impacté par la complexité (CIRS) évaluation du rôle de la complexité du code dans l’amélioration des capacités de raisonnement des grands modèles de langage.
- Des chercheurs de l’Université de Yokohama proposent VirSen1.0 un environnement virtuel permettant de rationaliser le développement de systèmes de reconnaissance des gestes humains basés sur des capteurs.
- Un algorithme d’apprentissage inspiré du cerveau permet la métaplasticité dans les réseaux neuronaux artificiels et à impulsions.