Mistral AI Établissant de nouveaux références au-delà de Llama2 dans l’espace open source
Mistral AI Établissant de nouvelles références dans l'espace open source, au-delà de Llama2
Les modèles de langage larges (LLM) ont récemment pris une place centrale, grâce à des performances exceptionnelles comme celles de ChatGPT. Lorsque Meta a introduit ses modèles Llama, cela a suscité un regain d’intérêt pour les LLM open source. L’objectif ? Créer des LLM open source abordables qui sont aussi performants que les modèles de premier plan tels que le GPT-4, mais sans l’étiquette de prix élevé ni la complexité.
Ce mélange d’accessibilité et d’efficacité a non seulement ouvert de nouvelles voies pour les chercheurs et les développeurs, mais a également préparé le terrain pour une nouvelle ère de progrès technologiques dans le traitement du langage naturel.
Récemment, les startups d’IA générative ont connu un grand succès en termes de financement. En tout, elles ont réuni 20 millions de dollars, dans le but de façonner l’IA open source. Anthropic a également réussi à collecter impressionnants 450 millions de dollars, et Cohere, en partenariat avec Google Cloud, a obtenu 270 millions de dollars en juin de cette année.
Présentation de Mistral 7B : Taille et disponibilité
- Anthony Goonetilleke, Président du groupe, Technologie et Responsable de la stratégie chez Amdocs – Série d’interviews
- Biais de l’IA et stéréotypes culturels Effets, limitations et atténuation
- Arc Browser dévoile le futur de la navigation alimentée par l’IA avec Arc Max
Mistral AI, basée à Paris et fondée par d’anciens étudiants de Google DeepMind et Meta, a annoncé son premier modèle de langage large : Mistral 7B. Ce modèle peut être facilement téléchargé par n’importe qui depuis GitHub et même via un torrent de 13,4 gigaoctets.
Cette startup a réussi à obtenir des fonds de démarrage record même avant d’avoir un produit sur le marché. Le premier modèle de Mistral AI avec 7 milliards de paramètres dépasse les performances du Llama 2 13B dans toutes les épreuves et bat même le Llama 1 34B sur de nombreux critères.
Comparé à d’autres modèles tels que le Llama 2, Mistral 7B offre des capacités similaires ou meilleures, mais avec moins de coûts de calcul. Alors que des modèles fondamentaux comme le GPT-4 peuvent réaliser davantage, ils ont un coût plus élevé et ne sont pas aussi conviviaux, car ils sont principalement accessibles via des API.
En ce qui concerne les tâches de codage, Mistral 7B fait concurrence à CodeLlama 7B. De plus, il est assez compact avec seulement 13,4 Go pour fonctionner sur des machines standard.
De plus, Mistral 7B Instruct, spécialement réglé pour les ensembles de données d’instructions sur Hugging Face, a montré de grandes performances. Il surpasse les autres modèles 7B sur MT-Bench et se positionne sur un pied d’égalité avec les modèles de conversation de 13B.
Exemple de Hugging Face Mistral 7B
Benchmark de performance
Dans une analyse de performance détaillée, Mistral 7B a été comparé aux modèles de la famille Llama 2. Les résultats sont clairs : Mistral 7B a nettement surpassé le Llama 2 13B dans tous les comparatifs. En fait, il a atteint les performances du Llama 34B, se distinguant notamment dans les comparatifs de code et de raisonnement.
Les comparatifs ont été organisés en plusieurs catégories, telles que le raisonnement du bon sens, la connaissance du monde, la compréhension de lecture, les mathématiques et le code, entre autres. Une observation particulièrement remarquable était la métrique de performance-coût de Mistral 7B, appelée “équivalent en taille de modèle”. Dans des domaines tels que le raisonnement et la compréhension, Mistral 7B a démontré des performances similaires à celles d’un modèle Llama 2 trois fois plus grand, ce qui signifie des économies potentielles en termes de mémoire et une augmentation du débit. Cependant, dans les comparatifs de connaissances, Mistral 7B s’est rapproché du Llama 2 13B, ce qui est probablement dû à ses limitations de paramètres affectant la compression des connaissances.
Qu’est-ce qui rend vraiment le modèle Mistral 7B meilleur que la plupart des autres modèles de langage ?
Simplification des mécanismes d’attention
Alors que les subtilités des mécanismes d’attention sont techniques, leur idée fondamentale est relativement simple. Imaginez lire un livre et mettre en évidence les phrases importantes ; c’est analogue à la façon dont les mécanismes d’attention “mettent en évidence” ou accordent de l’importance à des points de données spécifiques dans une séquence.
Dans le contexte des modèles de langage, ces mécanismes permettent au modèle de se concentrer sur les parties les plus pertinentes des données d’entrée, garantissant ainsi que la sortie est cohérente et contextuellement précise.
Dans les transformateurs standard, les scores d’attention sont calculés avec la formule :
Formule d’attention des transformateurs
La formule de ces scores implique une étape cruciale – la multiplication matricielle de Q et K. Le défi ici est que lorsque la longueur de la séquence augmente, les deux matrices se développent en conséquence, ce qui conduit à un processus intensif sur le plan computationnel. Cette préoccupation de la scalabilité est l’une des principales raisons pour lesquelles les transformateurs standard peuvent être lents, en particulier lorsqu’ils traitent de longues séquences.
Les mécanismes d’attention aident les modèles à se concentrer sur des parties spécifiques des données d’entrée. En général, ces mécanismes utilisent des “têtes” pour gérer cette attention. Plus vous avez de “têtes”, plus l’attention est spécifique, mais cela devient également plus complexe et plus lent. Approfondissez les transformateurs et les mécanismes d’attention ici.
L’attention multi-requête (MQA) accélère les choses en utilisant un ensemble unique de “têtes clés-valeurs”, mais sacrifie parfois la qualité. Maintenant, vous pourriez vous demander, pourquoi ne pas combiner la rapidité de la MQA avec la qualité de l’attention multi-têtes ? C’est là que l’attention par groupe de requêtes (GQA) intervient.
Attention par groupe de requêtes (GQA)
Attention par groupe de requêtes
GQA est une solution intermédiaire. Au lieu d’utiliser une ou plusieurs “têtes clés-valeurs”, elle les regroupe. Ainsi, le GQA atteint des performances proches de celles de l’attention multi-têtes détaillée, mais avec la rapidité de la MQA. Pour des modèles comme Mistral, cela signifie des performances efficaces sans compromettre trop la qualité.
Attention à fenêtre coulissante (SWA)
La fenêtre coulissante est une autre méthode utilisée dans le traitement des séquences d’attention. Cette méthode utilise une fenêtre d’attention de taille fixe autour de chaque jeton de la séquence. Avec plusieurs couches empilant cette attention fenêtrée, les couches supérieures acquièrent finalement une perspective plus large, englobant les informations de l’ensemble de l’entrée. Ce mécanisme est analogue aux champs récepteurs des réseaux neuronaux à convolutions (CNN).
D’autre part, la “fenêtre coulissante dilatée” du modèle Longformer, qui est conceptuellement similaire à la méthode de la fenêtre coulissante, calcule seulement quelques diagonales de la matrice QKT. Ce changement entraîne une augmentation de la consommation de mémoire de manière linéaire plutôt que quadratique, ce qui en fait une méthode plus efficace pour les séquences plus longues.
Transparence de l’IA Mistral contre les préoccupations de sécurité dans la décentralisation
Dans leur annonce, Mistral AI a également mis l’accent sur la transparence avec la déclaration : “Pas de trucs, pas de données exclusives”. Mais en même temps, leur seul modèle disponible pour le moment, “Mistral-7B-v0.1”, est un modèle de base préentraîné, ce qui lui permet de générer une réponse à n’importe quelle requête sans modération, ce qui soulève des problèmes potentiels de sécurité. Alors que des modèles comme GPT et Llama ont des mécanismes pour discerner quand répondre, la nature entièrement décentralisée de Mistral pourrait être exploitée par des acteurs malveillants.
Cependant, la décentralisation des modèles de langage volumineux a ses mérites. Alors que certains pourraient en abuser, les gens peuvent exploiter sa puissance pour le bien de la société et rendre l’intelligence accessible à tous.
Flexibilité de déploiement
Un des points forts est que le Mistral 7B est disponible sous la licence Apache 2.0. Cela signifie qu’il n’y a pas de véritables obstacles à son utilisation, que vous l’utilisiez à des fins personnelles, pour une grande entreprise, ou même pour une entité gouvernementale. Vous avez juste besoin du bon système pour l’exécuter, ou vous devrez peut-être investir dans des ressources cloud.
Alors qu’il existe d’autres licences telles que la plus simple licence MIT et la coopérative CC BY-SA-4.0, qui exige un crédit et des licences similaires pour les dérivés, Apache 2.0 fournit une base solide pour les projets à grande échelle.
Réflexions finales
L’émergence de modèles de langage open source de grande envergure comme le Mistral 7B marque un tournant décisif dans l’industrie de l’IA, rendant des modèles de langage de haute qualité accessibles à un public plus large. Les approches innovantes de Mistral AI, telles que l’attention à requête groupée et l’attention en fenêtre coulissante, promettent des performances efficaces sans compromettre la qualité.
Alors que la nature décentralisée de Mistral pose certains défis, sa flexibilité et sa licence open source soulignent le potentiel de démocratisation de l’IA. À mesure que le paysage évolue, l’accent se portera inévitablement sur l’équilibre entre la puissance de ces modèles et les considérations éthiques et les mécanismes de sécurité.
Qu’est-ce qui attend Mistral ensuite ? Le modèle 7B n’était que le début. L’équipe vise à lancer bientôt des modèles encore plus grands. Si ces nouveaux modèles correspondent aux performances du 7B, Mistral pourrait rapidement devenir un acteur majeur de l’industrie, dès leur première année.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Comment créer une persona ChatGPT pour une stratégie d’entreprise
- Exploration spatiale et technologie de pointe
- Ronald T. Kneusel, Auteur de « Comment fonctionne l’IA De la sorcellerie à la science » – Série d’interviews
- Critique de livre Comment fonctionne l’IA de la sorcellerie à la science par Ronald T. Kneusel
- Avantages et inconvénients des assistants virtuels d’IA
- Comment les entreprises en phase de démarrage et les fondateurs novices peuvent-ils lever des fonds pendant les périodes de ralentissement économique
- Comment classer les programmes d’informatique avec une optimisation appropriée du site Web