DINOv2 Modèles de vision par ordinateur auto-supervisés par Meta AI

DINOv2 Modèles de vision auto-supervisés par Meta AI.

Libération du potentiel de la vision par ordinateur avec DINOv2 Un modèle auto-supervisé révolutionnaire par Meta AI.

Meta AI vient de publier en open source les premiers modèles DINOv2 qui utilisent l’apprentissage auto-supervisé pour former des modèles de vision par ordinateur. Les modèles DINOv2 obtiennent des résultats qui correspondent ou même dépassent l’approche standard et les modèles du domaine.

Les modèles ont obtenu de bonnes performances sans nécessiter de réglages fins, ce qui en fait un choix parfait pour de nombreuses tâches et applications de vision par ordinateur différentes. DINOv2 peut apprendre à partir de diverses collections d’images et de caractéristiques telles que l’estimation de la profondeur, sans nécessiter d’entraînement explicite grâce à la méthode d’auto-apprentissage auto-supervisé.

1. Le besoin d’apprentissage auto-surpris

1.1. Aucun réglage fin n’est requis

L’apprentissage auto-supervisé est une méthode puissante utilisée pour former des modèles d’apprentissage automatique sans avoir besoin de grandes quantités de données étiquetées. Les modèles DINOv2 peuvent être entraînés sur un corpus d’images sans avoir besoin de métadonnées, de hashtag spécifique ou de légende d’image. Contrairement à plusieurs approches récentes d’apprentissage auto-supervisé, les modèles DinoV2 ne nécessitent pas de réglages fins, produisant ainsi des caractéristiques de haute performance pour différentes applications de vision par ordinateur.

1.2. Surmonter les limites d’annotation humaine

Au cours des dernières années, la préformation image-texte est devenue la méthode prédominante pour diverses applications de vision par ordinateur. Cependant, en raison de sa dépendance aux légendes étiquetées par des humains pour apprendre la signification sémantique des images, cette approche néglige souvent des informations cruciales qui ne sont pas explicitement incluses dans ces légendes. Par exemple, une légende étiquetée par un humain d’une image d’une table rouge dans une pièce jaune pourrait être “Une table rouge en bois”. Cette légende manquera des informations importantes sur l’arrière-plan, la position et la taille de la table. Cela entraînera un manque de compréhension des informations locales et se traduira par de mauvaises performances sur des tâches qui nécessitent des informations de localisation détaillées.

De plus, le besoin d’étiquettes et d’annotations humaines limitera la quantité de données que nous pouvons collecter pour entraîner les modèles. Cela devient beaucoup plus difficile pour certaines applications, par exemple l’annotation d’une cellule nécessite un certain niveau d’expertise humaine qui ne sera pas disponible à l’échelle requise. L’utilisation d’une approche d’entraînement auto-supervisé sur des images cellulaires ouvre la voie à un modèle plus fondamental et, par conséquent, améliorera la découverte biologique. Il en va de même pour des domaines avancés similaires tels que l’estimation de la densité animale.

Passer de DINO à DINOv2 a nécessité de surmonter plusieurs défis tels que

  • Création d’un grand ensemble de données d’entraînement organisé
  • Amélioration de l’algorithme et de la mise en œuvre de la formation
  • Conception d’un pipeline de distillation fonctionnel.

2. De DINO à DINOv2

2.1. Création d’un ensemble de données d’images large, organisée et diversifié

L’une des principales étapes de la construction de DINOv2 est de former des architectures et des modèles plus grands pour améliorer les performances du modèle. Cependant, les modèles plus grands nécessitent de grands ensembles de données pour être efficacement entraînés. Comme il n’y avait pas de grands ensembles de données disponibles répondant aux exigences, les chercheurs ont exploité des données Web publiquement collectées et ont construit un pipeline pour sélectionner uniquement les données utiles comme dans LASER.

Cependant, deux tâches principales doivent être effectuées pour pouvoir utiliser ces ensembles de données:

  • Équilibrer les données entre différents concepts et tâches
  • Supprimer les images non pertinentes

Comme cette tâche peut être accomplie manuellement, ils ont sélectionné un ensemble d’images de départ à partir d’environ 25 ensembles de données tiers et l’ont élargi en récupérant des images étroitement liées à ces images de départ. Cette approche leur a permis de produire un ensemble de données pertinent de 142 millions d’images sur 1,2 milliard d’images.

2.2. Améliorations algorithmiques et techniques

Bien que l’utilisation de modèles et d’ensembles de données plus grands conduira à de meilleurs résultats, cela présente des défis majeurs. Deux des principaux défis sont l’instabilité potentielle et la conservation de la traçabilité pendant la formation. Pour rendre la formation plus stable, DINOv2 inclut des méthodes de régularisation supplémentaires inspirées de la recherche de similarité et de la littérature de classification.

Le processus de formation de DINOv2 intègre les dernières mises en œuvre de formation à la précision mixte et distribuée fournies par PyTorch 2 de pointe. Cela a permis une mise en œuvre plus rapide des codes et l’utilisation du même matériel pour la formation de modèles DINO a entraîné une vitesse doublée et une utilisation de la mémoire réduite d’un tiers, ce qui a permis une mise à l’échelle de la taille des données et des modèles.

2.3. Réduction du temps d’inférence en utilisant la distillation de modèles

L’exécution de grands modèles en inférence nécessite un matériel puissant qui limitera l’utilisation pratique des méthodes pour différents cas d’utilisation. Pour résoudre ce problème, les chercheurs ont utilisé la distillation de modèle pour compresser la connaissance des grands modèles en modèles plus petits. En utilisant cette approche, les chercheurs ont pu condenser des architectures haute performance en modèles plus petits avec des coûts de performance négligeables. Cela a abouti à de forts modèles ViT-Small, ViT-Base et ViT-Large.

3. Pour commencer avec DINOv2

Le code de formation et d’évaluation nécessite PyTorch 2.0 et xFormers 0.0.18 ainsi que de nombreux autres packages tiers, et le code s’attend également à un environnement Linux. Les instructions suivantes expliquent comment configurer toutes les dépendances nécessaires à des fins de formation et d’évaluation :

  • Installer PyTorch en suivant les instructions ici. Il est conseillé d’installer PyTorch avec le support CUDA.
  • Télécharger conda
  • Clonez le référentiel DINOv2 en utilisant la commande suivante :

Code par Auteur

  • Procédez à la création et à l’activation d’un environnement Conda nommé “dinov2” en utilisant la définition d’environnement fournie :

Code par Auteur

  • Pour installer les dépendances requises pour ce projet, utilisez le fichier requirements.txt fourni.

Code par Auteur

  • Enfin, vous pouvez charger les modèles en utilisant le code ci-dessous :

Code par Auteur

En conclusion, la publication des modèles DINOv2 par Meta AI marque une étape importante. L’approche d’apprentissage auto-supervisé utilisée par les modèles DINOv2 fournit un moyen puissant de former des modèles d’apprentissage automatique sans avoir besoin de grandes quantités de données étiquetées. Avec la capacité d’atteindre une grande précision sans la demande de fine-tuning, ces modèles conviennent à diverses tâches et applications de vision par ordinateur. De plus, DINOv2 peut apprendre à partir de différentes collections d’images et peut apprendre à partir de caractéristiques telles que l’estimation de la profondeur sans formation explicite. La disponibilité de DINOv2 en tant que modèle open source ouvre les portes aux chercheurs et développeurs pour explorer de nouvelles possibilités dans les tâches et applications de vision par ordinateur.

Références

  • DINOv2 : Des modèles de vision par ordinateur de pointe avec un apprentissage auto-supervisé
  • DINOv2 : Apprentissage de fonctionnalités visuelles robustes sans supervision

Youssef Rafaat est un chercheur en vision par ordinateur & un scientifique des données. Sa recherche se concentre sur le développement d’algorithmes de vision par ordinateur en temps réel pour les applications de santé. Il a également travaillé en tant que scientifique des données pendant plus de 3 ans dans le domaine du marketing, de la finance et de la santé.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

La bataille pour l'IA open-source à la suite de l'IA générative

Découvrez l'évolution de la nature du débat sur l'IA open-source alors que les géants de la technologie et les pratic...

AI

Les chercheurs de Microsoft et de l'Université baptiste de Hong Kong présentent WizardCoder un LLM de code finement ajusté pour l'évolution-instruction du code.

Les grands modèles de langage (LLM) ont récemment suscité beaucoup d’intérêt et ont connu un succès remarquable...

AI

Construction d'un réseau neuronal à convolution avec PyTorch

Cet article de blog fournit un tutoriel sur la construction d'un réseau neuronal convolutif pour la classification d'...

AI

Outils de confidentialité des données de premier plan 2023

Les logiciels de gestion de la confidentialité des données facilitent le respect des réglementations sur la confident...

AI

Stability AI présente Stable Audio un nouveau modèle d'intelligence artificielle capable de générer des extraits audio à partir de prompts textuels

Stability AI a dévoilé une technologie révolutionnaire, Stable Audio, marquant une avancée significative dans la géné...