Cet article IA propose FACTORCL une nouvelle méthode d’apprentissage de la représentation multimodale pour aller au-delà de la redondance multi-vue.

Cet article IA présente FACTORCL, une nouvelle approche d'apprentissage de la représentation multimodale pour transcender la redondance multi-vue.

L’un des principaux paradigmes de l’apprentissage automatique est l’apprentissage de représentations à partir de plusieurs modalités. La pré-apprentissage de grandes images sur des données multimodales non étiquetées, puis le renforcement sur des étiquettes spécifiques à la tâche est une stratégie d’apprentissage courante aujourd’hui. Les techniques actuelles de pré-apprentissage multimodal sont principalement dérivées de travaux antérieurs sur l’apprentissage multi-vues, qui capitalise sur une prémisse cruciale de la redondance multi-vues : le fait que les informations échangées entre les modalités sont presque entièrement pertinentes pour les tâches qui suivent. Sur la base de cette hypothèse, les approches qui utilisent un pré-apprentissage contrastif pour capturer des données partagées, puis un renforcement pour conserver les informations partagées pertinentes pour la tâche, ont été appliquées avec succès à l’apprentissage à partir de la parole et du texte transcrit, des images et des légendes, de la vidéo et de l’audio, des instructions et des actions.

Cependant, leur étude examine deux contraintes clés sur l’utilisation de l’apprentissage contrastif (CL) dans des contextes multimodaux plus vastes dans le monde réel :

1. Faible partage d’informations pertinentes pour la tâche Il existe de nombreuses tâches multimodales avec peu d’informations partagées, comme celles entre des images de dessins animés et des légendes figuratives (c’est-à-dire des descriptions des visuels qui sont métaphoriques ou idiomatiques plutôt que littérales). Dans ces conditions, les CL multimodaux traditionnels auront du mal à acquérir les informations pertinentes pour la tâche requises et n’apprendront qu’une petite partie des représentations enseignées.

2. Des données hautement distinctives pertinentes pour les tâches : De nombreuses modalités peuvent offrir des informations distinctes qui ne se trouvent pas dans les autres modalités. Les robots utilisant des capteurs de force et les soins de santé avec des capteurs médicaux en sont deux exemples.

Les informations uniques pertinentes pour la tâche seront ignorées par les CL standard, ce qui entraînera des performances médiocres par la suite. Comment peuvent-ils créer des objectifs d’apprentissage multimodaux appropriés au-delà de la redondance multi-vues à la lumière de ces contraintes ? Les chercheurs de l’Université Carnegie Mellon, de l’Université de Pennsylvanie et de l’Université Stanford dans cet article commencent par les fondements de la théorie de l’information et présentent une méthode appelée FACTORIZED CONTRASTIVE LEARNING (FACTORCL) pour apprendre ces représentations multimodales au-delà de la redondance multi-vues. Il définit formellement les informations partagées et uniques à travers des énoncés mutuels conditionnels.

Tout d’abord, la factorisation explicite des représentations communes et uniques est le concept. Pour créer des représentations avec la quantité appropriée et nécessaire de contenu informationnel, la deuxième approche consiste à maximiser les bornes inférieures sur MI pour obtenir des informations pertinentes pour la tâche et à minimiser les bornes supérieures sur MI pour extraire les informations non pertinentes pour la tâche. En fin de compte, l’utilisation d’augmentations multimodales établit la pertinence de la tâche dans le scénario auto-supervisé sans étiquetage explicite. À l’aide de divers ensembles de données synthétiques et de vastes bancs d’essai multimodaux du monde réel impliquant des images et un langage figuratif, ils évaluent expérimentalement l’efficacité de FACTORCL dans la prédiction du sentiment humain, des émotions, de l’humour et du sarcasme, ainsi que de la prédiction des maladies et de la mortalité des patients à partir des indicateurs de santé et des lectures des capteurs. Sur six ensembles de données, ils obtiennent de nouvelles performances de pointe.

Les contributions technologiques principales sont les suivantes :

1. Une récente étude sur les performances de l’apprentissage contrastif montre que, dans les scénarios de faible partage ou d’informations uniques élevées, les CL multimodaux typiques ne peuvent pas collecter d’informations uniques pertinentes pour la tâche.

2. FACTORCL est un tout nouvel algorithme d’apprentissage contrastif :

(A) Pour améliorer l’apprentissage contrastif afin de traiter les faibles informations partagées ou les informations uniques élevées, FACTORCL factorise les informations pertinentes pour la tâche en informations partagées et uniques.

(B) FACTORCL optimise les informations partagées et uniques indépendamment, produisant des représentations optimales pertinentes pour la tâche en capturant les informations pertinentes pour la tâche via les bornes inférieures et en éliminant les informations non pertinentes pour la tâche à l’aide des bornes supérieures de MI.

(C) En utilisant des augmentations multimodales pour estimer les informations pertinentes à la tâche, FACTORCL permet l’apprentissage auto-supervisé à partir du FACTORCL qu’ils ont développé.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Les chercheurs de l'Université de Tsinghua présentent un nouvel algorithme d'apprentissage automatique sous le paradigme de la méta-apprentissage

Les récents succès dans les tâches supervisées de l’apprentissage profond peuvent être attribués à la disponibi...

AI

Combler le fossé de l'inclusion en informatique

Les étudiants de l'Institut polytechnique et universitaire de Virginie visent à remédier au manque de diversité en in...

AI

Cet article sur l'IA propose une nouvelle méthode basée sur les gradients appelée Cones pour analyser et identifier les neurones conceptuels dans les modèles de diffusion.

La structure complexe du cerveau lui permet d’accomplir des tâches cognitives et créatives incroyables. Selon d...

Apprentissage automatique

Microsoft Bing accélère la diffusion des annonces avec NVIDIA Triton.

L’équipe de Jiusheng Chen vient d’être accélérée. Ils diffusent des annonces personnalisées aux utilisate...

AI

Quelles opinions reflètent les LLM ? Cet article d'IA de Stanford examine les opinions reflétées par les modèles de langage LMs à travers le prisme des sondages d'opinion publique

Au cours des dernières années, il a été observé que les modèles de langage, ou LMs, ont été extrêmement utiles pour a...

AI

Les modèles de génération de code Llama de Meta sont désormais disponibles via Amazon SageMaker JumpStart.

Aujourd'hui, nous sommes ravis d'annoncer que les modèles de la fondation Code Llama, développés par Meta, sont dispo...