Cet article IA propose FACTORCL une nouvelle méthode d’apprentissage de la représentation multimodale pour aller au-delà de la redondance multi-vue.
Cet article IA présente FACTORCL, une nouvelle approche d'apprentissage de la représentation multimodale pour transcender la redondance multi-vue.
L’un des principaux paradigmes de l’apprentissage automatique est l’apprentissage de représentations à partir de plusieurs modalités. La pré-apprentissage de grandes images sur des données multimodales non étiquetées, puis le renforcement sur des étiquettes spécifiques à la tâche est une stratégie d’apprentissage courante aujourd’hui. Les techniques actuelles de pré-apprentissage multimodal sont principalement dérivées de travaux antérieurs sur l’apprentissage multi-vues, qui capitalise sur une prémisse cruciale de la redondance multi-vues : le fait que les informations échangées entre les modalités sont presque entièrement pertinentes pour les tâches qui suivent. Sur la base de cette hypothèse, les approches qui utilisent un pré-apprentissage contrastif pour capturer des données partagées, puis un renforcement pour conserver les informations partagées pertinentes pour la tâche, ont été appliquées avec succès à l’apprentissage à partir de la parole et du texte transcrit, des images et des légendes, de la vidéo et de l’audio, des instructions et des actions.
Cependant, leur étude examine deux contraintes clés sur l’utilisation de l’apprentissage contrastif (CL) dans des contextes multimodaux plus vastes dans le monde réel :
1. Faible partage d’informations pertinentes pour la tâche Il existe de nombreuses tâches multimodales avec peu d’informations partagées, comme celles entre des images de dessins animés et des légendes figuratives (c’est-à-dire des descriptions des visuels qui sont métaphoriques ou idiomatiques plutôt que littérales). Dans ces conditions, les CL multimodaux traditionnels auront du mal à acquérir les informations pertinentes pour la tâche requises et n’apprendront qu’une petite partie des représentations enseignées.
- Le week-end tourbillonnant de Sam Altman d’OpenAI à Microsoft
- Les chercheurs de l’UC Berkeley espèrent révolutionner les conversations axées sur les objectifs
- Mes statistiques de vie J’ai suivi mes habitudes pendant un an, et voici ce que j’ai appris.
2. Des données hautement distinctives pertinentes pour les tâches : De nombreuses modalités peuvent offrir des informations distinctes qui ne se trouvent pas dans les autres modalités. Les robots utilisant des capteurs de force et les soins de santé avec des capteurs médicaux en sont deux exemples.
Les informations uniques pertinentes pour la tâche seront ignorées par les CL standard, ce qui entraînera des performances médiocres par la suite. Comment peuvent-ils créer des objectifs d’apprentissage multimodaux appropriés au-delà de la redondance multi-vues à la lumière de ces contraintes ? Les chercheurs de l’Université Carnegie Mellon, de l’Université de Pennsylvanie et de l’Université Stanford dans cet article commencent par les fondements de la théorie de l’information et présentent une méthode appelée FACTORIZED CONTRASTIVE LEARNING (FACTORCL) pour apprendre ces représentations multimodales au-delà de la redondance multi-vues. Il définit formellement les informations partagées et uniques à travers des énoncés mutuels conditionnels.
Tout d’abord, la factorisation explicite des représentations communes et uniques est le concept. Pour créer des représentations avec la quantité appropriée et nécessaire de contenu informationnel, la deuxième approche consiste à maximiser les bornes inférieures sur MI pour obtenir des informations pertinentes pour la tâche et à minimiser les bornes supérieures sur MI pour extraire les informations non pertinentes pour la tâche. En fin de compte, l’utilisation d’augmentations multimodales établit la pertinence de la tâche dans le scénario auto-supervisé sans étiquetage explicite. À l’aide de divers ensembles de données synthétiques et de vastes bancs d’essai multimodaux du monde réel impliquant des images et un langage figuratif, ils évaluent expérimentalement l’efficacité de FACTORCL dans la prédiction du sentiment humain, des émotions, de l’humour et du sarcasme, ainsi que de la prédiction des maladies et de la mortalité des patients à partir des indicateurs de santé et des lectures des capteurs. Sur six ensembles de données, ils obtiennent de nouvelles performances de pointe.
Les contributions technologiques principales sont les suivantes :
1. Une récente étude sur les performances de l’apprentissage contrastif montre que, dans les scénarios de faible partage ou d’informations uniques élevées, les CL multimodaux typiques ne peuvent pas collecter d’informations uniques pertinentes pour la tâche.
2. FACTORCL est un tout nouvel algorithme d’apprentissage contrastif :
(A) Pour améliorer l’apprentissage contrastif afin de traiter les faibles informations partagées ou les informations uniques élevées, FACTORCL factorise les informations pertinentes pour la tâche en informations partagées et uniques.
(B) FACTORCL optimise les informations partagées et uniques indépendamment, produisant des représentations optimales pertinentes pour la tâche en capturant les informations pertinentes pour la tâche via les bornes inférieures et en éliminant les informations non pertinentes pour la tâche à l’aide des bornes supérieures de MI.
(C) En utilisant des augmentations multimodales pour estimer les informations pertinentes à la tâche, FACTORCL permet l’apprentissage auto-supervisé à partir du FACTORCL qu’ils ont développé.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Optimiser les actions Github
- Créer un modèle GPT en utilisant l’API de puissance de la NASA
- Comprendre la maintenance prédictive – Données de vague Ingénierie des caractéristiques (Partie 1)
- Requêtes de langage naturel alimentées par l’IA pour la découverte des connaissances
- Démystifier le remplissage des données
- Est-il difficile d’adopter le Serverless?
- Les 5 piliers des tests LLM fiables