Adept AI Labs rend open source Persimmon-8B un puissant modèle de langage entièrement sous licence permissive avec

Adept AI Labs rend open source Persimmon-8B, un puissant modèle de langage sous licence permissive.

Récemment, le domaine de l’intelligence artificielle a connu des progrès remarquables, notamment dans le développement de modèles de langage. Chez Marktechpost Media, nous avons couvert de nombreux modèles de langage basés sur divers paramètres et performances SOTA. Dans cette lignée, nous avons une nouvelle sortie, cette fois-ci, il s’agit de Persimmon-8B de Adept AI Labs. Persimmon-8B est un modèle open source entièrement sous licence permissive de la classe 8B. Ce modèle présente un immense potentiel pour une large gamme d’applications, visant à aider les utilisateurs dans diverses tâches liées à l’informatique. Cependant, il est important de noter que sous sa forme brute, le modèle peut produire des sorties qui ne sont pas filtrées pour la toxicité potentielle. Cela soulève une préoccupation critique quant à la nécessité de techniques d’évaluation plus affinées.

Alors que les modèles de langage plus petits ont démontré des capacités impressionnantes, Persimmon-8B se démarque comme un bond en avant significatif. Il possède une taille de contexte quatre fois supérieure à celle de LLaMA2 et huit fois celle de modèles tels que GPT-3, ce qui lui permet de relever des tâches liées au contexte avec plus de finesse. De plus, ses performances sont à la hauteur, voire dépassent, celles d’autres modèles de sa taille malgré une formation sur des données significativement moins nombreuses. Cela illustre l’efficacité et l’efficacité du processus de formation du modèle.

Pour évaluer les capacités de Persimmon-8B, l’équipe d’Adept adopte une approche unique. Au lieu de s’appuyer uniquement sur des probabilités implicites, ils optent pour une interaction plus directe, où le modèle est chargé de générer des réponses. Cette méthodologie reflète les interactions réelles avec les modèles de langage, où les utilisateurs posent des questions et anticipent les réponses. En publiant leurs suggestions, Adept invite la communauté à reproduire et à valider leurs résultats.

Les résultats témoignent des capacités de Persimmon-8B. Comparé à d’autres modèles de sa taille, tels que LLama 2 et MPT 7B Instruct, Persimmon-8B-FT se distingue comme le meilleur performer selon diverses mesures. Même le modèle de base, Persimmon-8B-Base, présente des performances comparables à LLama 2 malgré une formation sur une fraction des données. Cela souligne l’efficacité et l’efficacité du modèle dans la gestion d’une gamme diversifiée de tâches.

En ce qui concerne les détails techniques, Persimmon-8B est un transformateur à décodeur uniquement avec plusieurs améliorations architecturales. Il utilise une activation ReLU au carré et des encodages de position rotatifs, surpassant les alternatives conventionnelles. Le point de contrôle du modèle contient environ 9,3 milliards de paramètres optimisés pour une formation efficace. Notamment, le découplage des plongements d’entrée et de sortie sert d’amélioration au niveau du système, rationalisant le processus de formation.

En termes de vitesse d’inférence, Persimmon-8B présente des performances impressionnantes. Grâce à l’utilisation d’un code optimisé, il peut générer environ 56 jetons par seconde sur un seul GPU A100 de 80 Go. Cela en fait un outil très efficace pour les applications en temps réel.

En conclusion, la sortie de Persimmon-8B marque une étape importante dans le domaine des modèles de langage. Ses capacités, associées à l’approche d’évaluation innovante utilisée par Adept, ouvrent la voie à une nouvelle ère d’applications d’IA interactives. En rendant ce modèle open source, Adept invite la communauté à construire sur ses bases et à stimuler l’innovation dans ce domaine dynamique. À mesure que l’adoption du modèle augmente, il est susceptible de trouver des applications dans une gamme de domaines, révolutionnant la façon dont les gens interagissent avec les systèmes informatiques.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Comment construire des applications d'IA génératives et des mondes virtuels 3D

Pour se développer et réussir, les organisations doivent constamment se concentrer sur le développement des compétenc...

Recherche en IA

NVIDIA Research remporte le défi de conduite autonome ainsi que le prix de l'innovation à CVPR.

NVIDIA sera présenté la semaine prochaine comme le vainqueur du concours de prédiction d’occupation 3D pour le ...

Apprentissage automatique

Qui arrêtera la pluie? Les scientifiques appellent à une collaboration sur le climat.

Un trio de scientifiques de premier plan participe à l’un des projets les plus ambitieux de l’histoire de...

AI

Célébrez les bons moments en 3D avec Kingsletter cette semaine Dans le Studio NVIDIA.

Note de l’éditeur : cet article fait partie de notre série hebdomadaire In the NVIDIA Studio, qui célèbre les a...

AI

Fin-tastique un artiste 3D plonge dans le travail océanique alimenté par l'IA cette semaine 'Dans le studio NVIDIA

Note de l’éditeur: Cet article fait partie de notre série hebdomadaire In the NVIDIA Studio, qui célèbre les ar...

AI

La division Sierra présente trois projets épiques construits avec NVIDIA Omniverse

Note de l’éditeur : Cet article fait partie de notre série hebdomadaire In the NVIDIA Studio, qui met en valeur...