Apprentissage profond efficace libérer la puissance de la compression de modèle

'Efficient deep learning' 'libérer la puissance de la compression de modèle' translates to 'unleash the power of model compression' So, the condensed translation of the text would be 'Efficient deep learning unleashing the power of model compression

Image par l'auteur

Accélérer la vitesse d’inférence du modèle en production

Introduction

Lorsqu’un modèle d’apprentissage automatique est déployé en production, il existe souvent des exigences à respecter qui ne sont pas prises en compte lors de la phase de prototypage du modèle. Par exemple, le modèle en production devra gérer de nombreuses demandes de différents utilisateurs utilisant le produit. Vous voudrez donc optimiser, par exemple, la latence et/ou le débit.

  • Latence : il s’agit du temps nécessaire pour effectuer une tâche, comme le temps nécessaire pour charger une page Web après avoir cliqué sur un lien. C’est le temps d’attente entre le démarrage de quelque chose et l’observation du résultat.
  • Débit : c’est la quantité de demandes qu’un système peut gérer en un certain temps.

Cela signifie que le modèle d’apprentissage automatique doit être très rapide pour effectuer ses prédictions, et pour cela, il existe différentes techniques qui servent à augmenter la vitesse d’inférence du modèle. Examions les plus importantes dans cet article.

Compression de modèle

Il existe des techniques qui visent à rendre les modèles plus petits, c’est pourquoi on les appelle techniques de compression de modèle, tandis que d’autres se concentrent sur la rapidité des modèles lors de l’inférence et relèvent donc du domaine de l’optimisation de modèle. Mais souvent, rendre les modèles plus petits contribue également à accélérer l’inférence, il existe donc une frontière très floue qui sépare ces deux domaines d’étude.

Factorisation de rang faible

C’est la première méthode que nous voyons, et elle est beaucoup étudiée, en fait de nombreux articles ont récemment été publiés à ce sujet.

L’idée de base est de remplacer les matrices d’un réseau neuronal (les matrices représentant les couches du réseau) par des matrices ayant une dimensionnalité inférieure, bien qu’il serait plus correct de parler de tenseurs, car nous pouvons souvent avoir des matrices de plus de 2 dimensions. De cette manière, nous aurons moins de paramètres de réseau et une inférence plus rapide.

Un cas trivial consiste à remplacer les convolutions 3×3 d’un réseau CNN par des convolutions 1×1. De telles techniques sont utilisées par des réseaux tels que SqueezeNet.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Commencer avec LlaMA 2 | Le nouvel IA génératif de Meta

Introduction Avec la sortie de GPT d’OpenAI, de nombreuses entreprises se sont lancées dans la course pour crée...

AI

Meta AI présente IMAGEBIND Le premier projet d'IA open-source capable de lier des données provenant de six modalités à la fois, sans besoin de supervision explicite.

Les humains peuvent comprendre des idées complexes après avoir été exposés à seulement quelques exemples. La plupart ...

AI

Comment les développeurs peuvent travailler avec l'IA génératrice en toute sécurité

Quatre conseils pour aider le SDLC à trouver un équilibre entre la productivité accrue que l'IA générative apporte et...

AI

Lettre qui a conduit à la sortie d'Altman?

Dans le paysage en constante évolution de l’intelligence artificielle, OpenAI s’est démarqué comme un pha...