Des chercheurs de Cornell et de Tel Aviv présentent les Doppelgangers Apprendre à dissocier les images de structures similaires.
Des chercheurs de Cornell et de Tel Aviv présentent les Doppelgangers apprendre à dissocier les images similaires.
Regardez les images ci-dessus. Pouvez-vous faire la différence ? C’est comme essayer de différencier des jumeaux. Peut-être que l’un a les cheveux légèrement plus courts ? Ou est-ce le cas ? Dans le domaine des systèmes de vision par ordinateur, un problème similaire se pose. Cette recherche se concentre sur les tâches de vision géométrique, telles que la reconstruction 3D, où ces méthodes rencontrent fréquemment le défi de discerner si deux images représentent des surfaces 3D identiques dans le monde réel ou deux surfaces 3D distinctes qui se ressemblent beaucoup. Des déterminations incorrectes à cet égard peuvent entraîner des modèles 3D erronés. Cette tâche s’appelle “la désambiguïsation visuelle”.
La solution proposée par les chercheurs de Cornell consiste à créer un nouvel ensemble de données appelé “Doppelgangers”, qui comprend des paires d’images représentant soit la même surface (positives), soit deux surfaces distinctes mais visuellement similaires (négatives). La construction de l’ensemble de données Doppelgangers a été une tâche difficile, car même les humains peuvent avoir du mal à différencier entre des images identiques et similaires. L’approche exploite les annotations d’images existantes de la base de données d’images Wikimedia Commons pour générer automatiquement un ensemble substantiel de paires d’images étiquetées.
Nous pouvons résumer les contributions de l’image ci-dessus comme suit :
- Détecteurs de contenu GPT et AI les plus performants
- Google AI présente un nouveau cadre de simulation TensorFlow qui permet le calcul des écoulements de fluides avec les TPUs
- Cette recherche en IA propose DISC-MedLLM une solution complète qui exploite les grands modèles de langage (LLMs) pour fournir des réponses médicales précises.
(a) Lorsqu’on lui présente une paire d’images, des points clés et des correspondances sont extraites grâce à l’application de méthodes de correspondance de caractéristiques. Il est important de souligner que dans ce scénario spécifique, les images représentent une paire négative (doppelganger) montrant les côtés opposés de l’Arc de Triomphe. Notamment, les correspondances de caractéristiques sont principalement concentrées dans le segment supérieur de la structure, caractérisé par des éléments répétitifs, contrairement à la section inférieure où se trouvent les sculptures.
(b) Des masques binaires pour les points clés et les correspondances sont ensuite créés. Ensuite, la paire d’images et les masques sont alignés à l’aide d’une transformation affine, qui est déterminée en fonction des correspondances identifiées.
(c) Le classificateur utilisé dans ce contexte prend la concaténation des images et des masques binaires en entrée et produit une probabilité de sortie. Cette probabilité sert d’indication de la probabilité que la paire donnée constitue une correspondance positive.
Cependant, il a été observé que l’entraînement d’un modèle de réseau profond directement sur ces paires d’images brutes donnait des résultats insatisfaisants. Pour remédier à ce problème, une architecture de réseau spécialisée a été conçue. Ce réseau intègre des informations précieuses sous forme de caractéristiques locales et de correspondances 2D pour améliorer les performances de la tâche de désambiguïsation visuelle.
Lors de l’évaluation en utilisant l’ensemble de tests Doppelgangers, cette méthode proposée démontre des performances impressionnantes pour résoudre des tâches de désambiguïsation complexes. Elle surpasse à la fois les approches de référence et les conceptions de réseaux alternatives de manière significative. De plus, l’étude examine l’utilité du classificateur appris en tant que filtre de prétraitement simple dans les calculs de graphe de scène dans les pipelines de structure-from-motion, tels que COLMAP.
En fin de compte, ces résultats mettent en évidence le potentiel de cette approche pour améliorer la fiabilité et la précision des systèmes de vision par ordinateur dans les tâches liées à la reconstruction 3D et à la désambiguïsation visuelle. Cette recherche apporte des connaissances et des outils précieux au domaine de la vision par ordinateur, avec des applications prometteuses dans des scénarios du monde réel nécessitant une reconnaissance et une reconstruction précises des surfaces.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Comment les robots peuvent-ils prendre de meilleures décisions ? Les chercheurs du MIT et de Stanford présentent Diffusion-CCSP pour un raisonnement et une planification avancés des robots.
- Rendre la vie plus conviviale avec des robots personnels
- Adept AI Labs rend open source Persimmon-8B un puissant modèle de langage entièrement sous licence permissive avec
- Découvrez Falcon 180B le plus grand modèle de langage ouvertement disponible avec 180 milliards de paramètres.
- Comment créer un système de notation Elo basé sur les données pour les jeux en 2 contre 2
- Un guide sur les concepts fondamentaux dont vous avez besoin pour commencer à effectuer des tests statistiques
- Comment pouvons-nous mesurer l’incertitude dans les champs de radiance neuronaux ? Présentation de BayesRays un cadre révolutionnaire post-hoc pour les NeRFs