CLIP, Expliqué Intuitivement et Exhaustivement

CLIP, Expliqué de manière intuitive et exhaustive

Création de représentations solides d’images et de langage pour des tâches générales d’apprentissage automatique.

“Contrasting Modes” de Daniel Warfield utilisant MidJourney. Toutes les images sont de l'auteur sauf indication contraire.

Dans cet article, vous apprendrez sur la “préformation préalable à langue et image contrastée” (CLIP), une stratégie pour créer des représentations visuelles et linguistiques si bonnes qu’elles peuvent être utilisées pour créer des classificateurs hautement spécifiques et performants sans aucune donnée d’entraînement. Nous passerons en revue la théorie, comment CLIP diffère des méthodes plus conventionnelles, puis nous examinerons l’architecture étape par étape.

CLIP prédit des étiquettes hautement spécifiques pour des tâches de classification sur lesquelles il n'a jamais été directement entraîné. Source

Pour qui est-ce utile ? Toute personne intéressée par la vision par ordinateur, le traitement du langage naturel (NLP) ou la modélisation multimodale.

Quel est le niveau d’expertise requis pour cet article ? Cet article devrait être accessible aux scientifiques des données novices, bien que vous puissiez avoir du mal à suivre si vous n’avez aucune expérience en science des données. Cela devient un peu plus avancé une fois que nous commençons à parler de la fonction de perte.

Prérequis : Une connaissance sommaire de la vision par ordinateur et du traitement du langage naturel.

Le classificateur d’images typique

Lors de la formation d’un modèle pour détecter si une image est celle d’un chat ou d’un chien, une approche courante consiste à présenter au modèle des images de chats et de chiens, puis à ajuster progressivement le modèle en fonction de ses erreurs jusqu’à ce qu’il apprenne à faire la distinction entre les deux.

cet article, qui est le mécanisme qui rend cela généralement possible.

Cette forme traditionnelle d’apprentissage supervisé est parfaitement acceptable pour de nombreux cas d’utilisation et est connue pour bien fonctionner dans une variété de tâches. Cependant, cette stratégie est également connue pour donner des modèles hautement spécialisés qui ne fonctionnent bien que dans les limites de leur formation initiale.

Comparaison de CLIP avec un modèle supervisé plus traditionnel. Chacun des modèles a été entraîné et performe bien sur ImageNet (un ensemble de données populaire pour la classification d'images), mais lorsqu'ils sont exposés à des ensembles de données similaires contenant les mêmes classes dans des représentations différentes, le modèle supervisé présente une forte dégradation des performances, tandis que CLIP ne présente pas ce problème. Cela implique que les représentations dans CLIP sont plus robustes et généralisables que les autres méthodes. Source

Pour résoudre le problème de la sur-spécialisation, CLIP aborde la classification d’une manière fondamentalement différente; en essayant d’apprendre…

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Line met en open source « japanese-large-lm » Un modèle de langage japonais avec 3,6 milliards de paramètres.

Depuis novembre 2020, LINE s’est lancé dans un voyage transformateur de recherche et développement afin de crée...

AI

Créez des mèmes avec le plugin ChatGPT Meme Creator (pour développer votre entreprise)

Cet article vous montrera exactement comment utiliser un plugin ChatGPT Meme Creator pour créer des mèmes (qui sont e...

AI

Apprentissage des Transformers Code First Partie 1 - La configuration

Je ne sais pas pour vous, mais parfois regarder du code est plus facile que de lire des articles. Quand je travaillai...

AI

Les modèles linguistiques peuvent-ils raisonner au-delà des mots ? Exploration du raisonnement implicite dans les états cachés multi-couches pour des tâches complexes

Les modèles linguistiques de grande taille (LLM) ont montré des capacités remarquables dans des tâches comme la compr...