Microsoft AI présente une stratégie avancée d’optimisation de la communication, construite sur ZeRO pour un entraînement efficace de grands modèles, sans être entravé par la taille de batch ou les limitations de bande passante.

Microsoft AI utilise ZeRO pour optimiser la communication lors de l'entraînement de grands modèles, sans être limité par la taille de batch ou la bande passante.

Les chercheurs de Microsoft ont présenté un nouveau système appelé ZeRO++ qui a été développé pour optimiser la formation de grands modèles d’IA, en répondant aux défis de la surcharge de transfert de données élevée et de la bande passante limitée. ZeRO++ s’appuie sur les optimisations existantes de ZeRO et offre des stratégies de communication améliorées pour améliorer l’efficacité de la formation, réduire le temps et les coûts de formation.

La formation de grands modèles tels que Turing-NLG, ChatGPT et GPT-4 nécessite des ressources considérables en termes de mémoire et de calcul sur plusieurs dispositifs GPU. ZeRO++, développé par DeepSpeed, introduit des stratégies d’optimisation de la communication pour surmonter les limites de ZeRO dans les scénarios avec une petite taille de lot par GPU ou lors de la formation sur des clusters à faible bande passante.

La famille d’optimisations ZeRO, y compris ZeRO-Inference, permet la partition des états de modèle sur les GPU au lieu de la réplication, en utilisant la mémoire collective et la puissance de calcul des GPU. Cependant, ZeRO peut entraîner des surcharges de communication élevées pendant la formation. ZeRO++ aborde ce problème en incorporant trois ensembles d’optimisations de communication : communication de poids quantifiés (qwZ), partition hiérarchique de poids (hpZ) et communication de gradient quantifié (qgZ).

Pour réduire le volume de communication des paramètres, ZeRO++ utilise la quantification des poids, en utilisant la quantification par blocs pour préserver la précision de la formation. Ce processus de quantification optimisé est plus rapide et plus précis que la quantification de base. Pour minimiser la surcharge de communication pendant la rétropropagation, ZeRO++ échange la mémoire GPU pour la communication en maintenant une copie complète du modèle dans chaque machine. Pour la communication de gradient, ZeRO++ introduit qgZ, un nouveau paradigme de communication de gradient quantifié qui réduit le trafic et la latence entre nœuds.

Ces optimisations de communication résultent en une réduction significative du volume de communication. ZeRO++ atteint une réduction allant jusqu’à 4 fois par rapport à ZeRO, améliorant ainsi le débit et l’efficacité de la formation. ZeRO++ offre une amélioration de débit de 28 % à 36 % par rapport à ZeRO-3 dans les clusters à bande passante élevée lors de l’utilisation de petites tailles de lot par GPU. ZeRO++ atteint une accélération moyenne de 2 fois dans les clusters à faible bande passante par rapport à ZeRO-3, rendant la formation de grands modèles plus accessible sur une plus grande variété de clusters.

ZeRO++ n’est pas limité aux scénarios de formation, mais s’étend à l’apprentissage par renforcement à partir des commentaires humains (RLHF) utilisé dans les modèles de dialogue. En intégrant ZeRO++ avec DeepSpeed-Chat, la formation RLHF peut bénéficier d’une génération et d’une formation améliorées, atteignant jusqu’à 2,25 fois plus de débit de génération et 1,26 fois plus de débit de formation que ZeRO.

DeepSpeed a publié ZeRO++ pour rendre la formation de grands modèles plus efficace et accessible à la communauté de l’IA. Le système est conçu pour accélérer la formation, réduire la surcharge de communication et permettre des tailles de lots plus grandes, ce qui permet finalement de gagner du temps et des ressources. Les chercheurs et les praticiens peuvent tirer parti de ZeRO++ pour former des modèles tels que ChatGPT de manière plus efficace et explorer de nouvelles possibilités en matière d’IA.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Science des données

Une meilleure façon d'étudier les courants océaniques

Un nouveau modèle d'apprentissage automatique permet de faire des prédictions plus précises sur les courants océaniqu...

AI

Comment les développeurs de logiciels peuvent-ils être utiles avec ChatGPT et Bard AI?

Auparavant, les développeurs passaient beaucoup de temps à coder ou à déboguer, mais maintenant, grâce à l'aide de Ch...

AI

Construction d'un réseau neuronal à convolution avec PyTorch

Cet article de blog fournit un tutoriel sur la construction d'un réseau neuronal convolutif pour la classification d'...