Découvrez TensorRT-LLM une bibliothèque open-source qui accélère et optimise les performances d’inférence sur les derniers LLMs sur les GPU NVIDIA Tensor Core.

Découvrez TensorRT-LLM, une bibliothèque open-source pour accélérer et optimiser les performances d'inférence sur les GPU NVIDIA Tensor Core.

Les modèles linguistiques de grande envergure (LLM) d’intelligence artificielle (IA) peuvent générer du texte, traduire des langues, rédiger diverses formes de matériel créatif et fournir des réponses utiles à vos questions. Cependant, les LLM ont quelques problèmes, tels que le fait qu’ils sont entraînés sur de vastes ensembles de données de textes et de codes qui peuvent contenir des biais. Les résultats produits par les LLM peuvent refléter ces préjugés, renforcer les stéréotypes négatifs et propager des informations fausses. Parfois, les LLM produiront des écrits qui n’ont aucune base dans la réalité. L’hallucination décrit ces expériences. La lecture de textes hallucinatoires peut entraîner des erreurs d’interprétation et des inférences erronées. Comprendre le fonctionnement interne des LLM demande du travail. En raison de cela, il est difficile de comprendre le raisonnement derrière les actions des modèles. Cela peut poser des problèmes dans des contextes où l’ouverture et la responsabilité sont cruciales, comme les secteurs médical et financier. L’entraînement et le déploiement des LLM nécessitent une grande puissance de calcul. Ils peuvent devenir inaccessibles à de nombreuses petites entreprises et organisations à but non lucratif. Le spam, les courriels d’hameçonnage et les fausses informations sont autant d’exemples de mauvaises informations pouvant être générées à l’aide de LLM. Les utilisateurs et les entreprises peuvent être mis en danger à cause de cela.

Les chercheurs de NVIDIA ont collaboré avec des leaders de l’industrie tels que Meta, Anyscale, Cohere, Deci, Grammarly, Mistral AI, MosaicML (maintenant membre de Databricks), OctoML, Tabnine et Together AI pour accélérer et perfectionner l’inférence des LLM. Ces améliorations seront incluses dans la future version logicielle open-source NVIDIA TensorRT-LLM. TensorRT-LLM est un compilateur d’apprentissage profond qui utilise les GPU NVIDIA pour offrir des performances de pointe grâce à ses noyaux optimisés, ses phases de prétraitement et de post-traitement, et ses primitives de communication multi-GPU/multi-nœud. Les développeurs peuvent expérimenter de nouveaux LLM sans avoir une connaissance approfondie du C++ ou de CUDA de NVIDIA, ce qui offre des performances de premier ordre et des options de personnalisation rapides. Avec son API Python modulaire open-source, TensorRT-LLM permet de définir, d’optimiser et d’exécuter facilement de nouvelles architectures et améliorations au fur et à mesure du développement des LLM.

En tirant parti des dernières GPU de centre de données de NVIDIA, TensorRT-LLM espère augmenter considérablement le débit des LLM tout en réduisant les dépenses. Pour la création, l’optimisation et l’exécution des LLM en production, il fournit une API Python open-source simple qui encapsule le compilateur d’apprentissage profond TensorRT, les noyaux optimisés de FasterTransformer, le prétraitement et le post-traitement, ainsi que la communication multi-GPU/multi-nœud.

TensorRT-LLM permet une plus grande variété d’applications LLM. Maintenant que nous disposons de modèles de 70 milliards de paramètres comme le Llama 2 de Meta et le Falcon 180B, une approche standardisée n’est plus pratique. Les performances en temps réel de tels modèles dépendent généralement de configurations multi-GPU et d’une coordination complexe. En fournissant un parallélisme de tenseur qui répartit les matrices de poids entre les dispositifs, TensorRT-LLM simplifie ce processus et élimine la nécessité de fragmentation et de réarrangement manuels de la part des développeurs.

L’optimisation de regroupement en vol est une autre fonctionnalité notable conçue pour gérer efficacement les charges de travail extrêmement fluctuantes propres aux applications LLM. Cette fonctionnalité permet une exécution parallèle dynamique, ce qui maximise l’utilisation des GPU pour des tâches telles que les interactions question-réponse dans les chatbots et la résumation de documents. Étant donné la taille et la portée croissantes des mises en œuvre de l’IA, les entreprises peuvent s’attendre à une réduction du coût total de possession (TCO).

Les résultats en termes de performances sont stupéfiants. Les performances sur les benchmarks montrent un gain de 8x dans des tâches telles que la résumation d’articles lors de l’utilisation de TensorRT-LLM avec NVIDIA H100 par rapport à l’A100.

Figure 1. GPT-J-6B A100 comparé à H100 avec et sans TensorRT-LLM | Résumé de texte, longueur d’E/S variable, ensemble de données CNN / DailyMail | A100 FP16 PyTorch mode impératif | H100 FP8 | H100 FP8, regroupement en vol, TensorRT-LLM | Source de l’image : https://developer.nvidia.com/blog/nvidia-tensorrt-llm-supercharges-large-language-model-inference-on-nvidia-h100-gpus/

TensorRT-LLM peut augmenter les performances d’inférence de 4,6 fois par rapport aux GPU A100 sur Llama 2, un modèle de langage largement utilisé récemment publié par Meta et utilisé par de nombreuses entreprises souhaitant mettre en œuvre une IA générative.

Figure 2. Llama 2 70B, A100 comparé à H100 avec et sans TensorRT-LLM | Résumé de texte, longueur d’E/S variable, ensemble de données CNN / DailyMail | A100 FP16 PyTorch en mode eager | H100 FP8 | H100 FP8, mise en lots en vol, TensorRT-LLM | Source de l’image : https://developer.nvidia.com/blog/nvidia-tensorrt-llm-supercharges-large-language-model-inference-on-nvidia-h100-gpus/

En résumé, les LLM se développent rapidement. Chaque jour apporte une nouvelle addition à l’écosystème en expansion constante des modèles de conception. En conséquence, les modèles plus grands ouvrent de nouvelles possibilités et cas d’utilisation, favorisant leur adoption dans tous les secteurs. Le centre de données évolue grâce à l’inférence LLM. Le coût total de possession est amélioré pour les entreprises grâce à des performances plus élevées avec une précision accrue. De meilleures expériences client, rendues possibles grâce aux modifications des modèles, entraînent une augmentation des ventes et des profits. Il existe de nombreux autres facteurs à prendre en compte lors de la planification des initiatives de déploiement d’inférence pour tirer le meilleur parti des LLM de pointe. L’optimisation se produit rarement d’elle-même. Les utilisateurs doivent réfléchir à la parallélisme, aux pipelines de bout en bout et aux méthodes de planification sophistiquées lorsqu’ils effectuent des ajustements fins. Ils ont besoin d’un système informatique capable de gérer des données de degrés de précision variables sans sacrifier l’exactitude. TensorRT-LLM est une API Python simple et open source pour la création, l’optimisation et l’exécution de LLM en production. Il comprend le compilateur de deep learning de TensorRT, des noyaux optimisés, un prétraitement et un post-traitement, ainsi qu’une communication multi-GPU/multi-nœud.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Science des données

Le collectif MIT-Pillar AI annonce les premiers bénéficiaires de subventions initiales.

Six équipes menant des recherches en IA, en science des données et en apprentissage automatique reçoivent des finance...

AI

Intervention gouvernementale dans la conception de puces une aubaine ou un fléau pour les ambitions de l'Inde dans le domaine des semi-conducteurs ?

L’Inde se prépare à mettre en valeur son expertise en matière de semi-conducteurs et son innovation en matière ...

AI

Soutenir la durabilité, la santé numérique et l'avenir du travail

L'Initiative de Convergence MIT et Accenture pour l'Industrie et la Technologie sélectionne trois nouveaux projets de...

AI

Inflection AI sécurise un financement de 1,3 milliard de dollars dirigé par des géants de la technologie et des leaders de l'industrie.

La start-up d'intelligence artificielle Inflection AI a fait un bond en avant considérable dans sa trajectoire de cro...

Science des données

Novo Nordisk soutiendra les post-doctorants du MIT travaillant à l'intersection de l'IA et des sciences de la vie.

Le programme de bourses postdoctorales en intelligence artificielle MIT-Novo Nordisk soutiendra jusqu'à 10 post-docto...

AI

Des chercheurs du MIT ont reçu des subventions de démarrage pour étudier les implications sociales de l'IA générative

Les 27 finalistes - représentant chaque école du MIT - exploreront l'impact de la technologie sur la démocratie, l'éd...