DINOv2 Modèles de vision par ordinateur auto-supervisés par Meta AI
DINOv2 Modèles de vision auto-supervisés par Meta AI.
Libération du potentiel de la vision par ordinateur avec DINOv2 Un modèle auto-supervisé révolutionnaire par Meta AI.
Meta AI vient de publier en open source les premiers modèles DINOv2 qui utilisent l’apprentissage auto-supervisé pour former des modèles de vision par ordinateur. Les modèles DINOv2 obtiennent des résultats qui correspondent ou même dépassent l’approche standard et les modèles du domaine.
Les modèles ont obtenu de bonnes performances sans nécessiter de réglages fins, ce qui en fait un choix parfait pour de nombreuses tâches et applications de vision par ordinateur différentes. DINOv2 peut apprendre à partir de diverses collections d’images et de caractéristiques telles que l’estimation de la profondeur, sans nécessiter d’entraînement explicite grâce à la méthode d’auto-apprentissage auto-supervisé.
- Une plongée profonde dans les modèles GPT évolution et comparaison des performances.
- Présentation de MPT-7B un nouveau LLM open-source
- LLM Apocalypse Now La Revanche des Clones Open Source
1. Le besoin d’apprentissage auto-surpris
1.1. Aucun réglage fin n’est requis
L’apprentissage auto-supervisé est une méthode puissante utilisée pour former des modèles d’apprentissage automatique sans avoir besoin de grandes quantités de données étiquetées. Les modèles DINOv2 peuvent être entraînés sur un corpus d’images sans avoir besoin de métadonnées, de hashtag spécifique ou de légende d’image. Contrairement à plusieurs approches récentes d’apprentissage auto-supervisé, les modèles DinoV2 ne nécessitent pas de réglages fins, produisant ainsi des caractéristiques de haute performance pour différentes applications de vision par ordinateur.
1.2. Surmonter les limites d’annotation humaine
Au cours des dernières années, la préformation image-texte est devenue la méthode prédominante pour diverses applications de vision par ordinateur. Cependant, en raison de sa dépendance aux légendes étiquetées par des humains pour apprendre la signification sémantique des images, cette approche néglige souvent des informations cruciales qui ne sont pas explicitement incluses dans ces légendes. Par exemple, une légende étiquetée par un humain d’une image d’une table rouge dans une pièce jaune pourrait être “Une table rouge en bois”. Cette légende manquera des informations importantes sur l’arrière-plan, la position et la taille de la table. Cela entraînera un manque de compréhension des informations locales et se traduira par de mauvaises performances sur des tâches qui nécessitent des informations de localisation détaillées.
De plus, le besoin d’étiquettes et d’annotations humaines limitera la quantité de données que nous pouvons collecter pour entraîner les modèles. Cela devient beaucoup plus difficile pour certaines applications, par exemple l’annotation d’une cellule nécessite un certain niveau d’expertise humaine qui ne sera pas disponible à l’échelle requise. L’utilisation d’une approche d’entraînement auto-supervisé sur des images cellulaires ouvre la voie à un modèle plus fondamental et, par conséquent, améliorera la découverte biologique. Il en va de même pour des domaines avancés similaires tels que l’estimation de la densité animale.
Passer de DINO à DINOv2 a nécessité de surmonter plusieurs défis tels que
- Création d’un grand ensemble de données d’entraînement organisé
- Amélioration de l’algorithme et de la mise en œuvre de la formation
- Conception d’un pipeline de distillation fonctionnel.
2. De DINO à DINOv2
2.1. Création d’un ensemble de données d’images large, organisée et diversifié
L’une des principales étapes de la construction de DINOv2 est de former des architectures et des modèles plus grands pour améliorer les performances du modèle. Cependant, les modèles plus grands nécessitent de grands ensembles de données pour être efficacement entraînés. Comme il n’y avait pas de grands ensembles de données disponibles répondant aux exigences, les chercheurs ont exploité des données Web publiquement collectées et ont construit un pipeline pour sélectionner uniquement les données utiles comme dans LASER.
Cependant, deux tâches principales doivent être effectuées pour pouvoir utiliser ces ensembles de données:
- Équilibrer les données entre différents concepts et tâches
- Supprimer les images non pertinentes
Comme cette tâche peut être accomplie manuellement, ils ont sélectionné un ensemble d’images de départ à partir d’environ 25 ensembles de données tiers et l’ont élargi en récupérant des images étroitement liées à ces images de départ. Cette approche leur a permis de produire un ensemble de données pertinent de 142 millions d’images sur 1,2 milliard d’images.
2.2. Améliorations algorithmiques et techniques
Bien que l’utilisation de modèles et d’ensembles de données plus grands conduira à de meilleurs résultats, cela présente des défis majeurs. Deux des principaux défis sont l’instabilité potentielle et la conservation de la traçabilité pendant la formation. Pour rendre la formation plus stable, DINOv2 inclut des méthodes de régularisation supplémentaires inspirées de la recherche de similarité et de la littérature de classification.
Le processus de formation de DINOv2 intègre les dernières mises en œuvre de formation à la précision mixte et distribuée fournies par PyTorch 2 de pointe. Cela a permis une mise en œuvre plus rapide des codes et l’utilisation du même matériel pour la formation de modèles DINO a entraîné une vitesse doublée et une utilisation de la mémoire réduite d’un tiers, ce qui a permis une mise à l’échelle de la taille des données et des modèles.
2.3. Réduction du temps d’inférence en utilisant la distillation de modèles
L’exécution de grands modèles en inférence nécessite un matériel puissant qui limitera l’utilisation pratique des méthodes pour différents cas d’utilisation. Pour résoudre ce problème, les chercheurs ont utilisé la distillation de modèle pour compresser la connaissance des grands modèles en modèles plus petits. En utilisant cette approche, les chercheurs ont pu condenser des architectures haute performance en modèles plus petits avec des coûts de performance négligeables. Cela a abouti à de forts modèles ViT-Small, ViT-Base et ViT-Large.
3. Pour commencer avec DINOv2
Le code de formation et d’évaluation nécessite PyTorch 2.0 et xFormers 0.0.18 ainsi que de nombreux autres packages tiers, et le code s’attend également à un environnement Linux. Les instructions suivantes expliquent comment configurer toutes les dépendances nécessaires à des fins de formation et d’évaluation :
- Installer PyTorch en suivant les instructions ici. Il est conseillé d’installer PyTorch avec le support CUDA.
- Télécharger conda
- Clonez le référentiel DINOv2 en utilisant la commande suivante :
Code par Auteur
- Procédez à la création et à l’activation d’un environnement Conda nommé “dinov2” en utilisant la définition d’environnement fournie :
Code par Auteur
- Pour installer les dépendances requises pour ce projet, utilisez le fichier requirements.txt fourni.
Code par Auteur
- Enfin, vous pouvez charger les modèles en utilisant le code ci-dessous :
Code par Auteur
En conclusion, la publication des modèles DINOv2 par Meta AI marque une étape importante. L’approche d’apprentissage auto-supervisé utilisée par les modèles DINOv2 fournit un moyen puissant de former des modèles d’apprentissage automatique sans avoir besoin de grandes quantités de données étiquetées. Avec la capacité d’atteindre une grande précision sans la demande de fine-tuning, ces modèles conviennent à diverses tâches et applications de vision par ordinateur. De plus, DINOv2 peut apprendre à partir de différentes collections d’images et peut apprendre à partir de caractéristiques telles que l’estimation de la profondeur sans formation explicite. La disponibilité de DINOv2 en tant que modèle open source ouvre les portes aux chercheurs et développeurs pour explorer de nouvelles possibilités dans les tâches et applications de vision par ordinateur.
Références
- DINOv2 : Des modèles de vision par ordinateur de pointe avec un apprentissage auto-supervisé
- DINOv2 : Apprentissage de fonctionnalités visuelles robustes sans supervision
Youssef Rafaat est un chercheur en vision par ordinateur & un scientifique des données. Sa recherche se concentre sur le développement d’algorithmes de vision par ordinateur en temps réel pour les applications de santé. Il a également travaillé en tant que scientifique des données pendant plus de 3 ans dans le domaine du marketing, de la finance et de la santé.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Apprentissage profond avec R
- Les meilleurs frameworks AutoML que vous devriez considérer en 2023
- Projet RedPajama Une initiative open-source pour démocratiser les LLMs
- Techniques avancées de sélection de fonctionnalités pour les modèles d’apprentissage automatique
- Falcon LLM Le nouveau roi des LLM open-source
- IA Modèles linguistiques et visuels de grande taille
- Comment gérer les MLOps comme un pro Un guide sur l’apprentissage automatique sans larmes