Rencontrez MC-JEPA une architecture prédictive d’incorporation commune pour l’apprentissage auto-supervisé des caractéristiques de mouvement et de contenu.
Meet MC-JEPA, a predictive architecture for self-supervised learning of motion and content features.
Récemment, les techniques axées sur l’apprentissage des caractéristiques du contenu – en particulier, les caractéristiques contenant les informations nous permettant d’identifier et de discriminer les objets – ont dominé l’apprentissage auto-supervisé en vision. La plupart des techniques se concentrent sur l’identification de caractéristiques générales qui fonctionnent bien dans des tâches telles que la catégorisation des éléments ou la détection d’activité dans les films. L’apprentissage de caractéristiques localisées qui excellent dans des tâches régionales telles que la segmentation et la détection est un concept relativement récent. Cependant, ces techniques se concentrent sur la compréhension du contenu des images et des vidéos plutôt que sur la capacité à apprendre des caractéristiques sur les pixels, telles que le mouvement dans les films ou les textures.
Dans cette recherche, les auteurs de Meta AI, de l’Université de recherche PSL et de l’Université de New York se concentrent sur l’apprentissage simultané des caractéristiques du contenu grâce à l’apprentissage auto-supervisé générique et des caractéristiques de mouvement en utilisant des estimations de flux optique auto-supervisées à partir de films comme problème prétexte. Lorsque deux images – par exemple, des images successives dans un film ou des images d’une paire stéréo – se déplacent ou ont une connexion de pixels dense, cela est capturé par le flux optique. En vision par ordinateur, l’estimation est un problème fondamental dont la résolution est essentielle aux opérations telles que l’odométrie visuelle, l’estimation de profondeur ou le suivi d’objets. Selon les méthodes traditionnelles, l’estimation du flux optique est un problème d’optimisation qui vise à faire correspondre les pixels avec une contrainte de régularité.
Le défi de la catégorisation des données du monde réel plutôt que des données synthétiques limite les approches basées sur les réseaux neuronaux et l’apprentissage supervisé. Les techniques auto-supervisées rivalisent désormais avec les techniques supervisées en permettant l’apprentissage à partir de quantités substantielles de données vidéo du monde réel. La majorité des approches actuelles, cependant, ne s’intéressent qu’au mouvement plutôt qu’au contenu (sémantique) de la vidéo. Ce problème est résolu en apprenant simultanément les éléments de mouvement et de contenu dans les images à l’aide d’une approche multi-tâche. Les méthodes récentes identifient les relations spatiales entre les images vidéo. L’objectif est de suivre le mouvement des objets pour collecter des données de contenu que les estimations de flux optique ne peuvent pas fournir.
- Les chercheurs de l’UC Berkeley présentent Nerfstudio un cadre Python pour le développement de Neural Radiance Field (NeRF).
- Utiliser l’IA pour se protéger contre la manipulation d’images par l’IA
- Découvrez Med-PaLM Multimodal (Med-PaLM M) un grand modèle génératif multimodal qui encode et interprète de manière flexible les données biomédicales.
Ces méthodes sont des méthodes d’estimation de mouvement au niveau de l’objet. Avec une généralisation relativement faible à d’autres tâches visuelles en aval, elles acquièrent des caractéristiques hautement spécialisées pour la tâche de suivi. La faible qualité des caractéristiques visuelles apprises est renforcée par le fait qu’elles sont fréquemment entraînées sur de petits ensembles de données vidéo qui nécessitent plus de diversité que de plus grands ensembles de données d’images comme ImageNet. Apprendre plusieurs activités simultanément est une technique plus fiable pour développer des représentations visuelles. Pour résoudre ce problème, ils proposent MC-JEPA (Motion-Content Joint-Embedding Predictive Architecture). Utilisant un encodeur commun, ce système basé sur une architecture d’encapsulation prédictive d’incorporation conjointe apprend des estimations de flux optique et des caractéristiques de contenu dans un environnement multi-tâche.
Voici un résumé de leurs contributions :
• Ils proposent une technique basée sur PWC-Net qui est augmentée de nombreux éléments supplémentaires, tels qu’une perte de cohérence arrière et un terme de régularisation de la variance-covariance, pour apprendre le flux optique auto-supervisé à partir de données vidéo synthétiques et réelles.
• Ils utilisent MC-JEPA avec VICReg, une technique d’apprentissage auto-supervisé entraînée sur ImageNet, dans une configuration multi-tâche pour optimiser leur flux estimé et fournir des caractéristiques de contenu qui se transfèrent bien à plusieurs tâches en aval. Le nom de leur approche finale est MC-JEPA.
• Ils ont testé MC-JEPA sur une variété de référentiels de flux optique, y compris KITTI 2015 et Sintel, ainsi que sur des tâches de segmentation d’images et de vidéos sur Cityscapes ou DAVIS, et ils ont constaté qu’un seul encodeur performait bien sur chacune de ces tâches. Ils prévoient que MC-JEPA sera un précurseur des méthodologies d’apprentissage auto-supervisé basées sur l’incorporation conjointe et l’apprentissage multi-tâche qui peuvent être entraînées sur n’importe quelle donnée visuelle, y compris des images et des vidéos, et qui performe bien sur diverses tâches, de la prédiction de mouvement à la compréhension du contenu.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Adoption par les entreprises de l’IA générative
- Nouvel outil d’imagerie basé sur HADAR vous permet de voir clairement dans l’obscurité
- Cet article sur l’IA de Chine propose HQTrack une architecture d’intelligence artificielle pour suivre avec précision n’importe quoi dans les vidéos.
- Stack Overflow lance Overflow l’intégration de la communauté des développeurs et de l’IA.
- Maîtriser la prédiction du mot suivant avec BI-LSTM Un guide complet
- Ingénierie pratique des invites
- Description rapide et facile des métadonnées d’articles de recherche