Découvrez TensorRT-LLM une bibliothèque open-source qui accélère et optimise les performances d’inférence sur les derniers LLMs sur les GPU NVIDIA Tensor Core.
Découvrez TensorRT-LLM, une bibliothèque open-source pour accélérer et optimiser les performances d'inférence sur les GPU NVIDIA Tensor Core.
Les modèles linguistiques de grande envergure (LLM) d’intelligence artificielle (IA) peuvent générer du texte, traduire des langues, rédiger diverses formes de matériel créatif et fournir des réponses utiles à vos questions. Cependant, les LLM ont quelques problèmes, tels que le fait qu’ils sont entraînés sur de vastes ensembles de données de textes et de codes qui peuvent contenir des biais. Les résultats produits par les LLM peuvent refléter ces préjugés, renforcer les stéréotypes négatifs et propager des informations fausses. Parfois, les LLM produiront des écrits qui n’ont aucune base dans la réalité. L’hallucination décrit ces expériences. La lecture de textes hallucinatoires peut entraîner des erreurs d’interprétation et des inférences erronées. Comprendre le fonctionnement interne des LLM demande du travail. En raison de cela, il est difficile de comprendre le raisonnement derrière les actions des modèles. Cela peut poser des problèmes dans des contextes où l’ouverture et la responsabilité sont cruciales, comme les secteurs médical et financier. L’entraînement et le déploiement des LLM nécessitent une grande puissance de calcul. Ils peuvent devenir inaccessibles à de nombreuses petites entreprises et organisations à but non lucratif. Le spam, les courriels d’hameçonnage et les fausses informations sont autant d’exemples de mauvaises informations pouvant être générées à l’aide de LLM. Les utilisateurs et les entreprises peuvent être mis en danger à cause de cela.
Les chercheurs de NVIDIA ont collaboré avec des leaders de l’industrie tels que Meta, Anyscale, Cohere, Deci, Grammarly, Mistral AI, MosaicML (maintenant membre de Databricks), OctoML, Tabnine et Together AI pour accélérer et perfectionner l’inférence des LLM. Ces améliorations seront incluses dans la future version logicielle open-source NVIDIA TensorRT-LLM. TensorRT-LLM est un compilateur d’apprentissage profond qui utilise les GPU NVIDIA pour offrir des performances de pointe grâce à ses noyaux optimisés, ses phases de prétraitement et de post-traitement, et ses primitives de communication multi-GPU/multi-nœud. Les développeurs peuvent expérimenter de nouveaux LLM sans avoir une connaissance approfondie du C++ ou de CUDA de NVIDIA, ce qui offre des performances de premier ordre et des options de personnalisation rapides. Avec son API Python modulaire open-source, TensorRT-LLM permet de définir, d’optimiser et d’exécuter facilement de nouvelles architectures et améliorations au fur et à mesure du développement des LLM.
En tirant parti des dernières GPU de centre de données de NVIDIA, TensorRT-LLM espère augmenter considérablement le débit des LLM tout en réduisant les dépenses. Pour la création, l’optimisation et l’exécution des LLM en production, il fournit une API Python open-source simple qui encapsule le compilateur d’apprentissage profond TensorRT, les noyaux optimisés de FasterTransformer, le prétraitement et le post-traitement, ainsi que la communication multi-GPU/multi-nœud.
- Les chercheurs de Microsoft présentent InstructDiffusion un cadre d’IA unificateur et générique pour aligner les tâches de vision par ordinateur avec les instructions humaines.
- Affiner Llama 2 70B en utilisant PyTorch FSDP
- Application des statistiques descriptives et inférentielles en Python
TensorRT-LLM permet une plus grande variété d’applications LLM. Maintenant que nous disposons de modèles de 70 milliards de paramètres comme le Llama 2 de Meta et le Falcon 180B, une approche standardisée n’est plus pratique. Les performances en temps réel de tels modèles dépendent généralement de configurations multi-GPU et d’une coordination complexe. En fournissant un parallélisme de tenseur qui répartit les matrices de poids entre les dispositifs, TensorRT-LLM simplifie ce processus et élimine la nécessité de fragmentation et de réarrangement manuels de la part des développeurs.
L’optimisation de regroupement en vol est une autre fonctionnalité notable conçue pour gérer efficacement les charges de travail extrêmement fluctuantes propres aux applications LLM. Cette fonctionnalité permet une exécution parallèle dynamique, ce qui maximise l’utilisation des GPU pour des tâches telles que les interactions question-réponse dans les chatbots et la résumation de documents. Étant donné la taille et la portée croissantes des mises en œuvre de l’IA, les entreprises peuvent s’attendre à une réduction du coût total de possession (TCO).
Les résultats en termes de performances sont stupéfiants. Les performances sur les benchmarks montrent un gain de 8x dans des tâches telles que la résumation d’articles lors de l’utilisation de TensorRT-LLM avec NVIDIA H100 par rapport à l’A100.
TensorRT-LLM peut augmenter les performances d’inférence de 4,6 fois par rapport aux GPU A100 sur Llama 2, un modèle de langage largement utilisé récemment publié par Meta et utilisé par de nombreuses entreprises souhaitant mettre en œuvre une IA générative.
En résumé, les LLM se développent rapidement. Chaque jour apporte une nouvelle addition à l’écosystème en expansion constante des modèles de conception. En conséquence, les modèles plus grands ouvrent de nouvelles possibilités et cas d’utilisation, favorisant leur adoption dans tous les secteurs. Le centre de données évolue grâce à l’inférence LLM. Le coût total de possession est amélioré pour les entreprises grâce à des performances plus élevées avec une précision accrue. De meilleures expériences client, rendues possibles grâce aux modifications des modèles, entraînent une augmentation des ventes et des profits. Il existe de nombreux autres facteurs à prendre en compte lors de la planification des initiatives de déploiement d’inférence pour tirer le meilleur parti des LLM de pointe. L’optimisation se produit rarement d’elle-même. Les utilisateurs doivent réfléchir à la parallélisme, aux pipelines de bout en bout et aux méthodes de planification sophistiquées lorsqu’ils effectuent des ajustements fins. Ils ont besoin d’un système informatique capable de gérer des données de degrés de précision variables sans sacrifier l’exactitude. TensorRT-LLM est une API Python simple et open source pour la création, l’optimisation et l’exécution de LLM en production. Il comprend le compilateur de deep learning de TensorRT, des noyaux optimisés, un prétraitement et un post-traitement, ainsi qu’une communication multi-GPU/multi-nœud.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Stability AI lance le premier modèle japonais de vision-langage
- Découvrez PyGraft un outil d’IA basé sur Python, open source, qui génère des schémas et des graphes de connaissances hautement personnalisés et agnostiques du domaine.
- Les grands modèles de langage peuvent-ils vraiment faire des mathématiques ? Cette recherche sur l’intelligence artificielle présente MathGLM un modèle robuste pour résoudre des problèmes mathématiques sans calculatrice.
- A. Michael West Faire progresser les interactions homme-robot dans les soins de santé
- Aider les modèles de vision par ordinateur et de langage à comprendre ce qu’ils voient
- Les robots quadrupèdes à bas coût peuvent-ils maîtriser le Parkour ? Révélation d’un système d’apprentissage révolutionnaire pour le mouvement robotique agile
- La longue attente pour Jurassic Park est-elle enfin terminée ? Ce modèle d’IA utilise la traduction d’image en image pour donner vie aux fossiles anciens.