Adept AI Labs rend open source Persimmon-8B un puissant modèle de langage entièrement sous licence permissive avec
Adept AI Labs rend open source Persimmon-8B, un puissant modèle de langage sous licence permissive.
Récemment, le domaine de l’intelligence artificielle a connu des progrès remarquables, notamment dans le développement de modèles de langage. Chez Marktechpost Media, nous avons couvert de nombreux modèles de langage basés sur divers paramètres et performances SOTA. Dans cette lignée, nous avons une nouvelle sortie, cette fois-ci, il s’agit de Persimmon-8B de Adept AI Labs. Persimmon-8B est un modèle open source entièrement sous licence permissive de la classe 8B. Ce modèle présente un immense potentiel pour une large gamme d’applications, visant à aider les utilisateurs dans diverses tâches liées à l’informatique. Cependant, il est important de noter que sous sa forme brute, le modèle peut produire des sorties qui ne sont pas filtrées pour la toxicité potentielle. Cela soulève une préoccupation critique quant à la nécessité de techniques d’évaluation plus affinées.
Alors que les modèles de langage plus petits ont démontré des capacités impressionnantes, Persimmon-8B se démarque comme un bond en avant significatif. Il possède une taille de contexte quatre fois supérieure à celle de LLaMA2 et huit fois celle de modèles tels que GPT-3, ce qui lui permet de relever des tâches liées au contexte avec plus de finesse. De plus, ses performances sont à la hauteur, voire dépassent, celles d’autres modèles de sa taille malgré une formation sur des données significativement moins nombreuses. Cela illustre l’efficacité et l’efficacité du processus de formation du modèle.
Pour évaluer les capacités de Persimmon-8B, l’équipe d’Adept adopte une approche unique. Au lieu de s’appuyer uniquement sur des probabilités implicites, ils optent pour une interaction plus directe, où le modèle est chargé de générer des réponses. Cette méthodologie reflète les interactions réelles avec les modèles de langage, où les utilisateurs posent des questions et anticipent les réponses. En publiant leurs suggestions, Adept invite la communauté à reproduire et à valider leurs résultats.
- Découvrez Falcon 180B le plus grand modèle de langage ouvertement disponible avec 180 milliards de paramètres.
- Comment créer un système de notation Elo basé sur les données pour les jeux en 2 contre 2
- Un guide sur les concepts fondamentaux dont vous avez besoin pour commencer à effectuer des tests statistiques
Les résultats témoignent des capacités de Persimmon-8B. Comparé à d’autres modèles de sa taille, tels que LLama 2 et MPT 7B Instruct, Persimmon-8B-FT se distingue comme le meilleur performer selon diverses mesures. Même le modèle de base, Persimmon-8B-Base, présente des performances comparables à LLama 2 malgré une formation sur une fraction des données. Cela souligne l’efficacité et l’efficacité du modèle dans la gestion d’une gamme diversifiée de tâches.
En ce qui concerne les détails techniques, Persimmon-8B est un transformateur à décodeur uniquement avec plusieurs améliorations architecturales. Il utilise une activation ReLU au carré et des encodages de position rotatifs, surpassant les alternatives conventionnelles. Le point de contrôle du modèle contient environ 9,3 milliards de paramètres optimisés pour une formation efficace. Notamment, le découplage des plongements d’entrée et de sortie sert d’amélioration au niveau du système, rationalisant le processus de formation.
En termes de vitesse d’inférence, Persimmon-8B présente des performances impressionnantes. Grâce à l’utilisation d’un code optimisé, il peut générer environ 56 jetons par seconde sur un seul GPU A100 de 80 Go. Cela en fait un outil très efficace pour les applications en temps réel.
En conclusion, la sortie de Persimmon-8B marque une étape importante dans le domaine des modèles de langage. Ses capacités, associées à l’approche d’évaluation innovante utilisée par Adept, ouvrent la voie à une nouvelle ère d’applications d’IA interactives. En rendant ce modèle open source, Adept invite la communauté à construire sur ses bases et à stimuler l’innovation dans ce domaine dynamique. À mesure que l’adoption du modèle augmente, il est susceptible de trouver des applications dans une gamme de domaines, révolutionnant la façon dont les gens interagissent avec les systèmes informatiques.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Comment pouvons-nous mesurer l’incertitude dans les champs de radiance neuronaux ? Présentation de BayesRays un cadre révolutionnaire post-hoc pour les NeRFs
- Commencer avec SQL en 5 étapes
- Combler le fossé entre les cliniciens et les modèles linguistiques dans le domaine de la santé Découvrez MedAlign, un ensemble de données généré par les cliniciens pour suivre les instructions des dossiers médicaux électroniques.
- Des chercheurs de Microsoft introduisent Hydra-RLHF une solution à mémoire efficace pour l’apprentissage par renforcement avec rétroaction humaine.
- Des chercheurs du MIT proposent AskIt un langage spécifique au domaine pour simplifier l’intégration de modèles de langage importants dans le développement logiciel.
- Comment Ideogram révolutionne la conversion texte-image ? La plateforme d’IA qui va au-delà de DALL-E et Midjourney pour générer des lettres
- Découvrez WavJourney un cadre AI pour la création audio compositionnelle avec de grands modèles de langage