Cet article sur l’IA de l’Université technologique de Nanyang à Singapour présente MeVIS une référence à grande échelle pour la segmentation vidéo avec des expressions de mouvement.

Cet article présente MeVIS, une référence pour la segmentation vidéo avec des expressions de mouvement de l'IA de l'Université technologique de Nanyang à Singapour.

La segmentation vidéo guidée par le langage est un domaine en développement qui se concentre sur la segmentation et le suivi d’objets spécifiques dans les vidéos en utilisant des descriptions en langage naturel. Les ensembles de données actuels pour la référence aux objets vidéo mettent généralement l’accent sur les objets prédominants et reposent sur des expressions linguistiques avec de nombreuses caractéristiques statiques. Ces caractéristiques permettent d’identifier l’objet cible en une seule image. Cependant, ces ensembles de données négligent l’importance du mouvement dans la segmentation d’objets vidéo guidée par le langage.

https://arxiv.org/abs/2308.08544

Les chercheurs ont introduit MeVIS, un nouvel ensemble de données à grande échelle appelé Segmentation vidéo par expression de mouvement (MeViS), pour aider notre enquête. L’ensemble de données MeViS comprend 2 006 vidéos avec 8 171 objets, et 28 570 expressions de mouvement sont fournies pour se référer à ces objets. Les images ci-dessus affichent les expressions dans MeViS qui se concentrent principalement sur les attributs de mouvement, et l’objet cible mentionné ne peut pas être identifié en examinant une seule image. Par exemple, le premier exemple présente trois perroquets avec des apparences similaires, et l’objet cible est identifié comme “L’oiseau qui s’envole”. Cet objet ne peut être reconnu qu’en capturant son mouvement tout au long de la vidéo.

Quelques étapes garantissent que l’ensemble de données MeVIS met l’accent sur les mouvements temporels des vidéos.

Tout d’abord, le contenu vidéo est sélectionné avec soin, contenant plusieurs objets qui coexistent avec le mouvement et excluant les vidéos avec des objets isolés que les attributs statiques peuvent facilement décrire.

Deuxièmement, les expressions linguistiques sont privilégiées et ne contiennent pas d’indices statiques, tels que les noms de catégorie ou les couleurs d’objet, dans les cas où les objets cibles peuvent être décrits de manière non ambiguë par les seuls mots de mouvement.

En plus de proposer l’ensemble de données MeViS, les chercheurs présentent également une approche de référence, nommée Perception de mouvement guidée par le langage et appariement (LMPM), pour relever les défis posés par cet ensemble de données. Leur approche implique la génération de requêtes conditionnées par le langage pour identifier les objets cibles potentiels dans la vidéo. Ces objets sont ensuite représentés à l’aide d’incorporations d’objets, qui sont plus robustes et plus efficaces sur le plan computationnel que les cartes de caractéristiques d’objets. Les chercheurs appliquent la Perception de mouvement à ces incorporations d’objets pour capturer le contexte temporel et établir une compréhension holistique de la dynamique du mouvement de la vidéo. Cela permet à leur modèle de saisir à la fois les mouvements momentanés et prolongés présents dans la vidéo.

https://arxiv.org/abs/2308.08544

L’image ci-dessus affiche l’architecture de LMLP. Ils utilisent un décodeur Transformer pour interpréter le langage à partir des incorporations d’objets combinées affectées par le mouvement. Cela aide à prédire les mouvements des objets. Ensuite, ils comparent les caractéristiques linguistiques avec les mouvements d’objets projetés pour trouver l’objet cible mentionné dans les expressions. Cette méthode innovante fusionne la compréhension du langage et l’évaluation du mouvement pour traiter efficacement la tâche complexe de l’ensemble de données.

Cette recherche a posé les bases du développement d’algorithmes de segmentation vidéo guidés par le langage plus avancés. Elle a ouvert des voies dans des directions plus difficiles, telles que :

  • Explorer de nouvelles techniques pour une meilleure compréhension et modélisation du mouvement dans les modalités visuelles et linguistiques.
  • Créer des modèles plus efficaces qui réduisent le nombre d’objets détectés redondants.
  • Concevoir des méthodes de fusion cross-modales efficaces pour exploiter les informations complémentaires entre le langage et les signaux visuels.
  • Développer des modèles avancés capables de gérer des scènes complexes avec différents objets et expressions.

Pour relever ces défis, il est nécessaire de mener des recherches pour faire avancer l’état de l’art actuel dans le domaine de la segmentation vidéo guidée par le langage.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more