Rencontrez MC-JEPA une architecture prédictive d’incorporation commune pour l’apprentissage auto-supervisé des caractéristiques de mouvement et de contenu.

Meet MC-JEPA, a predictive architecture for self-supervised learning of motion and content features.

Récemment, les techniques axées sur l’apprentissage des caractéristiques du contenu – en particulier, les caractéristiques contenant les informations nous permettant d’identifier et de discriminer les objets – ont dominé l’apprentissage auto-supervisé en vision. La plupart des techniques se concentrent sur l’identification de caractéristiques générales qui fonctionnent bien dans des tâches telles que la catégorisation des éléments ou la détection d’activité dans les films. L’apprentissage de caractéristiques localisées qui excellent dans des tâches régionales telles que la segmentation et la détection est un concept relativement récent. Cependant, ces techniques se concentrent sur la compréhension du contenu des images et des vidéos plutôt que sur la capacité à apprendre des caractéristiques sur les pixels, telles que le mouvement dans les films ou les textures.

Dans cette recherche, les auteurs de Meta AI, de l’Université de recherche PSL et de l’Université de New York se concentrent sur l’apprentissage simultané des caractéristiques du contenu grâce à l’apprentissage auto-supervisé générique et des caractéristiques de mouvement en utilisant des estimations de flux optique auto-supervisées à partir de films comme problème prétexte. Lorsque deux images – par exemple, des images successives dans un film ou des images d’une paire stéréo – se déplacent ou ont une connexion de pixels dense, cela est capturé par le flux optique. En vision par ordinateur, l’estimation est un problème fondamental dont la résolution est essentielle aux opérations telles que l’odométrie visuelle, l’estimation de profondeur ou le suivi d’objets. Selon les méthodes traditionnelles, l’estimation du flux optique est un problème d’optimisation qui vise à faire correspondre les pixels avec une contrainte de régularité.

Le défi de la catégorisation des données du monde réel plutôt que des données synthétiques limite les approches basées sur les réseaux neuronaux et l’apprentissage supervisé. Les techniques auto-supervisées rivalisent désormais avec les techniques supervisées en permettant l’apprentissage à partir de quantités substantielles de données vidéo du monde réel. La majorité des approches actuelles, cependant, ne s’intéressent qu’au mouvement plutôt qu’au contenu (sémantique) de la vidéo. Ce problème est résolu en apprenant simultanément les éléments de mouvement et de contenu dans les images à l’aide d’une approche multi-tâche. Les méthodes récentes identifient les relations spatiales entre les images vidéo. L’objectif est de suivre le mouvement des objets pour collecter des données de contenu que les estimations de flux optique ne peuvent pas fournir.

Ces méthodes sont des méthodes d’estimation de mouvement au niveau de l’objet. Avec une généralisation relativement faible à d’autres tâches visuelles en aval, elles acquièrent des caractéristiques hautement spécialisées pour la tâche de suivi. La faible qualité des caractéristiques visuelles apprises est renforcée par le fait qu’elles sont fréquemment entraînées sur de petits ensembles de données vidéo qui nécessitent plus de diversité que de plus grands ensembles de données d’images comme ImageNet. Apprendre plusieurs activités simultanément est une technique plus fiable pour développer des représentations visuelles. Pour résoudre ce problème, ils proposent MC-JEPA (Motion-Content Joint-Embedding Predictive Architecture). Utilisant un encodeur commun, ce système basé sur une architecture d’encapsulation prédictive d’incorporation conjointe apprend des estimations de flux optique et des caractéristiques de contenu dans un environnement multi-tâche.

Voici un résumé de leurs contributions :

• Ils proposent une technique basée sur PWC-Net qui est augmentée de nombreux éléments supplémentaires, tels qu’une perte de cohérence arrière et un terme de régularisation de la variance-covariance, pour apprendre le flux optique auto-supervisé à partir de données vidéo synthétiques et réelles.

• Ils utilisent MC-JEPA avec VICReg, une technique d’apprentissage auto-supervisé entraînée sur ImageNet, dans une configuration multi-tâche pour optimiser leur flux estimé et fournir des caractéristiques de contenu qui se transfèrent bien à plusieurs tâches en aval. Le nom de leur approche finale est MC-JEPA.

• Ils ont testé MC-JEPA sur une variété de référentiels de flux optique, y compris KITTI 2015 et Sintel, ainsi que sur des tâches de segmentation d’images et de vidéos sur Cityscapes ou DAVIS, et ils ont constaté qu’un seul encodeur performait bien sur chacune de ces tâches. Ils prévoient que MC-JEPA sera un précurseur des méthodologies d’apprentissage auto-supervisé basées sur l’incorporation conjointe et l’apprentissage multi-tâche qui peuvent être entraînées sur n’importe quelle donnée visuelle, y compris des images et des vidéos, et qui performe bien sur diverses tâches, de la prédiction de mouvement à la compréhension du contenu.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

L'IA veut sa part du champ de bataille ukrainien !

Récemment, l’Ukraine est devenue étonnamment une mine d’or pour les entreprises d’IA. Les grandes e...

AI

Des chercheurs de l'UC Berkeley et de Deepmind proposent SuccessVQA une reformulation de la détection du succès qui est adaptable aux VLM pré-entraînés tels que Flamingo.

Pour atteindre la meilleure précision de performance possible, il est crucial de comprendre si un agent est sur la bo...

AI

Stack Overflow révolutionne le support aux développeurs avec OverflowAI

Stack Overflow est une plateforme renommée pour les développeurs à la recherche de réponses techniques. Elle exploite...

AI

Comment l'IA change la façon dont nous codons

En résumé Dans cet article, vous trouverez un résumé de mes dernières recherches sur l'IA et le travail (explorant l'...

AI

Comment construire une base solide pour le leadership américain en matière d'IA

Google partage le rapport Construire une base sécurisée pour le leadership américain en IA.

AI

Travailler avec MS SQL Server en Julia

Les bases de données SQL sont l'un des logiciels les plus largement déployés dans le monde. Elles constituent la colo...