Les chercheurs de CMU présentent BUTD-DETR un modèle d’intelligence artificielle (IA) qui se conditionne directement sur une énonciation linguistique et détecte tous les objets mentionnés dans l’énonciation.

Les chercheurs de CMU présentent un modèle d'IA, BUTD-DETR, qui détecte tous les objets mentionnés dans une énonciation linguistique.

La recherche de tous les “objets” dans une image donnée est le fondement de la vision par ordinateur. En créant un vocabulaire de catégories et en entraînant un modèle à reconnaître les instances de ce vocabulaire, on peut éviter la question “Qu’est-ce qu’un objet ?”. La situation se complique lorsque l’on essaie d’utiliser ces détecteurs d’objets comme agents domestiques pratiques. Les modèles apprennent souvent à choisir l’élément référencé parmi un ensemble de suggestions d’objets qu’un détecteur pré-entraîné offre lorsqu’ils sont sollicités pour ancrer des énoncés référentiels dans des environnements 2D ou 3D. Par conséquent, le détecteur peut manquer les énoncés qui se rapportent à des éléments visuels plus détaillés, tels que la chaise, la jambe de la chaise, ou l’extrémité avant de la jambe de la chaise.

L’équipe de recherche présente un modèle de détection transformer ascendante-descendante (BUTD-DETR prononcé “Beauty-DETER”) qui se base directement sur un énoncé oral et trouve tous les éléments mentionnés. BUTD-DETR fonctionne comme un détecteur d’objets normal lorsque l’énoncé est une liste de catégories d’objets. Il est entraîné sur des paires image-langage marquées avec les boîtes englobantes de tous les éléments évoqués dans le discours, ainsi que sur des ensembles de données de détection d’objets à vocabulaire fixe. Cependant, avec quelques ajustements, BUTD-DETR peut également ancrer des phrases linguistiques dans des nuages de points 3D et des images 2D.

Au lieu de les choisir au hasard dans un ensemble, BUTD-DETR décode les boîtes d’objets en accordant une attention à l’input verbal et visuel. L’attention ascendante, agnostique de la tâche, peut négliger certains détails lors de la localisation d’un élément, mais l’attention dirigée par le langage comble les lacunes. Une scène et un énoncé oral sont utilisés comme entrée pour le modèle. Des suggestions de boîtes sont extraites à l’aide d’un détecteur déjà entraîné. Ensuite, des jetons visuels, de boîte et linguistiques sont extraits de la scène, des boîtes et de la parole en utilisant des encodeurs spécifiques à chaque modalité. Ces jetons prennent du sens dans leur contexte en accordant une attention les uns aux autres. Les jetons visuels raffinés lancent des requêtes d’objets qui décodent les boîtes et s’étendent sur de nombreux flux.

La pratique de la détection d’objets est un exemple de langage référentiel ancré, où l’énoncé est l’étiquette de catégorie de la chose détectée. Les chercheurs utilisent la détection d’objets comme ancrage référentiel des instructions de détection en sélectionnant aléatoirement certaines catégories d’objets dans le vocabulaire du détecteur et en générant des énoncés synthétiques en les séquençant (par exemple, “Canapé. Personne. Chaise.”). Ces indices de détection sont utilisés comme informations de supervision supplémentaires, le but étant de trouver toutes les occurrences des étiquettes de catégorie spécifiées dans l’instruction à l’intérieur de la scène. Le modèle est instruit d’éviter de faire des associations de boîtes pour les étiquettes de catégorie pour lesquelles il n’y a pas d’exemples d’entrée visuelle (comme “personne” dans l’exemple ci-dessus). Dans cette approche, un seul modèle peut ancrer le langage et reconnaître les objets tout en partageant les mêmes données d’entraînement pour les deux tâches.

Résultats

Le modèle MDETR-3D développé équivalent fonctionne moins bien que les modèles précédents, tandis que BUTD-DETR atteint des performances de pointe en matière d’ancre de langage 3D.

BUTD-DETR fonctionne également dans le domaine 2D, et avec des améliorations architecturales telles que l’attention déformable, il atteint des performances comparables à celles de MDETR tout en convergent deux fois plus rapidement. Cette approche permet de faire un pas vers l’unification des modèles d’ancre pour les dimensions 2D et 3D, car elle peut être facilement adaptée pour fonctionner dans les deux dimensions avec des ajustements mineurs.

Pour tous les benchmarks d’ancre de langage 3D, BUTD-DETR démontre des gains de performance significatifs par rapport aux méthodes de pointe (SR3D, NR3D, ScanRefer). De plus, il a été la meilleure soumission lors de l’atelier ECCV sur le langage pour les scènes 3D, où a eu lieu la compétition ReferIt3D. Cependant, lorsqu’il est entraîné sur des données massives, BUTD-DETR peut rivaliser avec les meilleures approches existantes pour les benchmarks d’ancre de langage 2D. Plus précisément, l’attention déformable efficace des chercheurs sur le modèle 2D permet au modèle de converger deux fois plus rapidement que MDETR de pointe.

La vidéo ci-dessous décrit le flux de travail complet.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Titre Apprenez à investir avec des outils d'IA

Si vous avez du mal à comprendre le monde de l'investissement, Composer (un outil d'investissement basé sur l'IA) pou...

AI

RAPIDS Utilisez le GPU pour accélérer facilement les modèles ML.

Introduction Avec la croissance continue de l’intelligence artificielle (IA), la demande en puissance de calcul...

AI

Élever la cohérence au-delà Ce modèle d'IA enseigne aux modèles de diffusion la conscience en 3D pour une génération de texte vers 3D robuste.

Les modèles de Texte-vers-X ont connu une croissance rapide récemment, avec la plupart des avancées se concentrant su...

AI

MLCommons présente MedPerf une plateforme open-source pour évaluer les performances des modèles d'IA afin de garantir leur efficacité clinique.

Évaluer l’efficacité des modèles d’IA sur de grands ensembles de données réelles et variées est essentiel...

AI

L'avenir des modèles de langage adopter la multimodalité pour des expériences utilisateur améliorées

L’Intelligence Artificielle avance, grâce à l’introduction de modèles de langue larges (LLMs) extrêmement...