Classification d’images pour débutants

Guide pour classer les images pour les débutants

Architecture VGG et ResNet à partir de 2014

Images de unsplash — modifiées par l'auteur

La classification d’images était le premier sujet que j’ai enseigné lors de Interview Kickstart pour préparer les professionnels à trouver des emplois dans les meilleures entreprises technologiques. J’ai écrit cet article lorsque je me préparais pour l’un de mes cours là-bas. Donc, si vous n’êtes pas familier avec ce sujet, cette explication intuitive pourrait également vous aider.

Dans cet article, nous examinons les modèles VGG et ResNet; tous deux sont des travaux innovants et influents dans le développement des réseaux neuronaux convolutifs (CNN) pour la vision par ordinateur. La VGG[2] a été proposée en 2014 par un groupe de recherche à Oxford, et la ResNet[3] a été proposée par des chercheurs de Microsoft en 2015.

Commençons.

Qu’est-ce que VGG ?

VGG signifie Visual Geometry Group et est un groupe de recherche de l’université d’Oxford. En 2014, ils ont conçu une architecture de réseau neuronal convolutif profond pour la classification d’images et l’ont nommée d’après eux-mêmes ; c’est-à-dire VGG. [2].

Architecture du réseau VGG

Ce réseau existe en quelques configurations ; elles ont toutes la même architecture, mais le nombre de couches est différent. Les plus célèbres sont VGG16 et VGG19. Le VGG19 est plus profond et a de meilleures performances que le VGG16. Pour simplifier, nous nous concentrons sur le VGG16.

L’architecture du VGG16 est représentée dans l’image ci-dessous. Comme nous le voyons, il a 16 couches ; 13 couches de convolution et 3 couches entièrement connectées.

Architecture VGG16 — image de l'auteur

C’est une architecture très simple ; elle est composée de 6 blocs où les 5 premiers blocs contiennent des couches de convolution suivies d’un pooling maximum, et le 6e bloc ne contient que des couches entièrement connectées.

Toutes les couches de convolution utilisent des filtres de 3×3 avec une stride=1, et tous les pooloring maximum est de 2×2 avec une stride=2, ce qui divise par deux la largeur et la hauteur de la carte des caractéristiques d’entrée. Cela s’appelle le sous-échantillonnage car cela réduit la taille de la carte des caractéristiques de sortie.

Remarque : les couches de convolution commencent avec 64 filtres et doublent après chaque pooling jusqu’à atteindre 512 filtres. Toutes les couches de convolutions utilisent un “padding” “same” pour maintenir…

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Le Tour de France ajoute ChatGPT et la technologie de jumeau numérique.

La société de technologie de l'information et de services basée au Japon, NTT, a déclaré que le Tour de France de cet...

AI

Découvrez AudioGPT un système d'IA multi-modal connectant ChatGPT avec des modèles fondamentaux audio.

La communauté de l’IA est maintenant significativement impactée par de grands modèles de langage, et l’in...

AI

Les chercheurs de Salesforce présentent XGen-Image-1 un modèle de diffusion latente texte-image entraîné à réutiliser plusieurs composants pré-entraînés.

La génération d’images a émergé en tant que domaine pionnier au sein de l’intelligence artificielle (IA),...

AI

Révolutionner la segmentation des objets vidéo dévoiler Cutie avec des techniques de lecture avancées de la mémoire au niveau des objets.

“`html Suivre et segmenter des objets à partir d’un vocabulaire ouvert défini dans une annotation du prem...

AI

Les Jeux Asiatiques, point de repère pour l'eSport, ravivent les rêves olympiques

Aux Jeux asiatiques de Hangzhou, en Chine, les joueurs d'eSports auront l'occasion de remporter une médaille pour la ...

AI

La caméra arrête les deepfakes à l'instant du déclenchement

Les références de contenu intégrées vérifient l'authenticité des photos.