Est-ce que ce pourraient être les correctifs? Cette approche d’IA analyse le contributeur clé du succès des transformateurs de vision

Les correctifs possibles? Cette IA analyse le facteur clé du succès des transformateurs de vision.

Les réseaux neuronaux convolutifs (CNN) ont été le pilier des systèmes pour les tâches de vision par ordinateur. Ils ont été l’architecture privilégiée pour tous types de problèmes, de la détection d’objets à la super-résolution d’images. En fait, les célèbres avancées (par exemple, AlexNet) dans le domaine de l’apprentissage approfondi ont été rendues possibles grâce aux réseaux neuronaux convolutifs.

Cependant, les choses ont changé lorsqu’une nouvelle architecture basée sur les modèles Transformer, appelée Vision Transformer (ViT), a montré des résultats prometteurs et a surpassé les architectures convolutives classiques, notamment pour les grands ensembles de données. Depuis lors, le domaine cherche à permettre des solutions basées sur ViT pour les problèmes qui ont été abordés avec des CNN pendant des années.

Le ViT utilise des couches d’auto-attention pour traiter les images, mais le coût computationnel de ces couches augmenterait quadratiquement avec le nombre de pixels par image s’il était appliqué naïvement au niveau du pixel. Par conséquent, le ViT divise d’abord l’image en plusieurs patchs, les incorpore linéairement, puis applique directement le transformer à cette collection de patchs.

À la suite du succès du ViT original, de nombreux travaux ont modifié l’architecture ViT pour améliorer ses performances. Remplacer l’auto-attention par de nouvelles opérations, apporter d’autres petits changements, etc. Cependant, malgré toutes ces modifications, presque toutes les architectures ViT suivent un modèle commun et simple. Elles maintiennent une taille et une résolution égales dans tout le réseau et présentent un comportement isotrope, réalisé en mettant en œuvre un mélange spatial et de canaux à des étapes alternées. De plus, tous les réseaux utilisent des incorporations de patchs qui permettent de réduire l’échantillonnage au début du réseau et facilitent la conception de mélange simple et uniforme.

Cette approche basée sur les patchs est le choix de conception commun pour toutes les architectures ViT, ce qui simplifie l’ensemble du processus de conception. Alors, la question se pose. Le succès des transformers de vision est-il principalement dû à la représentation basée sur les patchs ? Ou est-ce dû à l’utilisation de techniques avancées et expressives telles que l’auto-attention et les MLP ? Quel est le principal facteur qui contribue aux performances supérieures des transformers de vision ?

Il y a un moyen de le découvrir, et il s’appelle ConvMixer.

Aperçu de ConvMixer. Source : https://openreview.net/forum?id=rAnB7JSMXL

ConvMixer est une architecture convolutive développée pour analyser les performances des ViT. Elle est très similaire au ViT à bien des égards : elle fonctionne directement sur les patchs d’image, maintient une résolution constante dans tout le réseau et sépare le mélange des canaux du mélange spatial des informations dans différentes parties de l’image.

Cependant, la différence clé est que ConvMixer réalise ces opérations à l’aide de couches convolutionnelles standard, par opposition aux mécanismes d’auto-attention utilisés dans les modèles Vision Transformer et MLP-Mixer. En fin de compte, le modèle obtenu est moins coûteux en termes de puissance de calcul car les opérations de convolution en profondeur et ponctuelles sont moins coûteuses que les couches d’auto-attention et MLP.

Malgré sa simplicité extrême, ConvMixer surpasse à la fois les modèles de vision par ordinateur “standard”, tels que les ResNets avec des nombres de paramètres similaires, et certaines variantes correspondantes de ViT et MLP-Mixer. Cela suggère que l’architecture de mélange isotrope basée sur les patchs est un puissant élément primitif qui fonctionne bien avec presque tous les choix d’opérations de mélange bien comportées.

ConvMixer est une classe extrêmement simple de modèles qui mélangent indépendamment les emplacements spatiaux et de canal des incorporations de patchs en utilisant uniquement des convolutions standard. Une amélioration substantielle des performances peut être obtenue en utilisant de grandes tailles de noyau inspirées des grands champs récepteurs des ViT et MLP-Mixer. Enfin, ConvMixer peut servir de référence pour les futures architectures basées sur les patchs avec des opérations nouvelles.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Top 5 Alternatives gratuites à GPT-4

Pensez-vous que GPT-4 est une grande nouveauté? Ces nouveaux venus de l'IA générative volent déjà la vedette!

AI

Les Jumeaux Numériques pourraient permettre des traitements de santé personnalisés

La combinaison de données sur le corps humain avec les données personnelles des patients pour créer des jumeaux numér...

AI

Les médecins luttent avec l'IA dans les soins aux patients

L'approbation par la Food and Drug Administration (FDA) des outils d'intelligence artificielle suscite des doutes par...

AI

Découvrez WavJourney un cadre AI pour la création audio compositionnelle avec de grands modèles de langage

Le domaine émergent de l’intelligence artificielle (IA) multimodale fusionne des données visuelles, auditives e...

AI

La bénédiction de la dimensionalité?! (Partie 1)

« Nous pensons qu'une avancée significative peut être réalisée sur un ou plusieurs de ces problèmes si un groupe de s...

AI

Découvrez SegGPT un modèle généraliste qui effectue des tâches de segmentation arbitraires dans des images ou des vidéos grâce à une inférence en contexte.

En vision par ordinateur, qui cherche à localiser et à réorganiser des notions significatives au niveau des pixels, t...