Les chercheurs de CMU présentent BUTD-DETR un modèle d’intelligence artificielle (IA) qui se conditionne directement sur une énonciation linguistique et détecte tous les objets mentionnés dans l’énonciation.
Les chercheurs de CMU présentent un modèle d'IA, BUTD-DETR, qui détecte tous les objets mentionnés dans une énonciation linguistique.
La recherche de tous les “objets” dans une image donnée est le fondement de la vision par ordinateur. En créant un vocabulaire de catégories et en entraînant un modèle à reconnaître les instances de ce vocabulaire, on peut éviter la question “Qu’est-ce qu’un objet ?”. La situation se complique lorsque l’on essaie d’utiliser ces détecteurs d’objets comme agents domestiques pratiques. Les modèles apprennent souvent à choisir l’élément référencé parmi un ensemble de suggestions d’objets qu’un détecteur pré-entraîné offre lorsqu’ils sont sollicités pour ancrer des énoncés référentiels dans des environnements 2D ou 3D. Par conséquent, le détecteur peut manquer les énoncés qui se rapportent à des éléments visuels plus détaillés, tels que la chaise, la jambe de la chaise, ou l’extrémité avant de la jambe de la chaise.
L’équipe de recherche présente un modèle de détection transformer ascendante-descendante (BUTD-DETR prononcé “Beauty-DETER”) qui se base directement sur un énoncé oral et trouve tous les éléments mentionnés. BUTD-DETR fonctionne comme un détecteur d’objets normal lorsque l’énoncé est une liste de catégories d’objets. Il est entraîné sur des paires image-langage marquées avec les boîtes englobantes de tous les éléments évoqués dans le discours, ainsi que sur des ensembles de données de détection d’objets à vocabulaire fixe. Cependant, avec quelques ajustements, BUTD-DETR peut également ancrer des phrases linguistiques dans des nuages de points 3D et des images 2D.
Au lieu de les choisir au hasard dans un ensemble, BUTD-DETR décode les boîtes d’objets en accordant une attention à l’input verbal et visuel. L’attention ascendante, agnostique de la tâche, peut négliger certains détails lors de la localisation d’un élément, mais l’attention dirigée par le langage comble les lacunes. Une scène et un énoncé oral sont utilisés comme entrée pour le modèle. Des suggestions de boîtes sont extraites à l’aide d’un détecteur déjà entraîné. Ensuite, des jetons visuels, de boîte et linguistiques sont extraits de la scène, des boîtes et de la parole en utilisant des encodeurs spécifiques à chaque modalité. Ces jetons prennent du sens dans leur contexte en accordant une attention les uns aux autres. Les jetons visuels raffinés lancent des requêtes d’objets qui décodent les boîtes et s’étendent sur de nombreux flux.
- ByteDance AI Research propose un nouveau cadre d’apprentissage auto-supervisé pour créer des avatars 3D stylisés de haute qualité avec un mélange de paramètres continus et discrets.
- Principaux outils d’IA de conversion de la parole en texte (2023)
- L’équipe Stability AI présente FreeWilly1 et FreeWilly2 de nouveaux modèles de langage à grande échelle (LLM) en libre accès
La pratique de la détection d’objets est un exemple de langage référentiel ancré, où l’énoncé est l’étiquette de catégorie de la chose détectée. Les chercheurs utilisent la détection d’objets comme ancrage référentiel des instructions de détection en sélectionnant aléatoirement certaines catégories d’objets dans le vocabulaire du détecteur et en générant des énoncés synthétiques en les séquençant (par exemple, “Canapé. Personne. Chaise.”). Ces indices de détection sont utilisés comme informations de supervision supplémentaires, le but étant de trouver toutes les occurrences des étiquettes de catégorie spécifiées dans l’instruction à l’intérieur de la scène. Le modèle est instruit d’éviter de faire des associations de boîtes pour les étiquettes de catégorie pour lesquelles il n’y a pas d’exemples d’entrée visuelle (comme “personne” dans l’exemple ci-dessus). Dans cette approche, un seul modèle peut ancrer le langage et reconnaître les objets tout en partageant les mêmes données d’entraînement pour les deux tâches.
Résultats
Le modèle MDETR-3D développé équivalent fonctionne moins bien que les modèles précédents, tandis que BUTD-DETR atteint des performances de pointe en matière d’ancre de langage 3D.
BUTD-DETR fonctionne également dans le domaine 2D, et avec des améliorations architecturales telles que l’attention déformable, il atteint des performances comparables à celles de MDETR tout en convergent deux fois plus rapidement. Cette approche permet de faire un pas vers l’unification des modèles d’ancre pour les dimensions 2D et 3D, car elle peut être facilement adaptée pour fonctionner dans les deux dimensions avec des ajustements mineurs.
Pour tous les benchmarks d’ancre de langage 3D, BUTD-DETR démontre des gains de performance significatifs par rapport aux méthodes de pointe (SR3D, NR3D, ScanRefer). De plus, il a été la meilleure soumission lors de l’atelier ECCV sur le langage pour les scènes 3D, où a eu lieu la compétition ReferIt3D. Cependant, lorsqu’il est entraîné sur des données massives, BUTD-DETR peut rivaliser avec les meilleures approches existantes pour les benchmarks d’ancre de langage 2D. Plus précisément, l’attention déformable efficace des chercheurs sur le modèle 2D permet au modèle de converger deux fois plus rapidement que MDETR de pointe.
La vidéo ci-dessous décrit le flux de travail complet.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Meta AI présente IMAGEBIND Le premier projet d’IA open-source capable de lier des données provenant de six modalités à la fois, sans besoin de supervision explicite.
- Llama-2, GPT-4, ou Claude-2; Quel modèle de langage d’intelligence artificielle est le meilleur ?
- L’initiative Trouver des neurones dans une botte de foin à MIT, Harvard et Northeastern University utilise l’exploration clairsemée’.
- Découvrez Prompt Diffusion un cadre d’IA pour permettre l’apprentissage en contexte dans les modèles génératifs basés sur la diffusion.
- Est-ce que les LLM peuvent s’exécuter nativement sur votre iPhone ? Découvrez MLC-LLM un cadre ouvert qui permet d’intégrer directement les modèles de langage (LLM) dans une large gamme de plateformes avec accélération GPU.
- Un nouveau cadre théorique d’IA pour analyser et limiter les fuites d’information des modèles d’apprentissage automatique
- PaLM AI | L’IA générative interne de Google