Les chercheurs de la CMU présentent MultiModal Graph Learning (MMGL) un nouveau cadre d’intelligence artificielle permettant de capturer des informations provenant de multiples voisins multimodaux avec des structures relationnelles entre eux.

Les chercheurs de la CMU révolutionnent l'intelligence artificielle avec MultiModal Graph Learning (MMGL) une nouvelle approche pour capturer des informations provenant de multiples voisins multimodaux et leurs relations structurées.

L’apprentissage multimodal des graphes est un domaine multidisciplinaire qui combine des concepts de l’apprentissage automatique, de la théorie des graphes et de la fusion de données pour résoudre des problèmes complexes impliquant diverses sources de données et leurs interconnexions. L’apprentissage multimodal des graphes peut générer des légendes descriptives pour les images en combinant des données visuelles avec des informations textuelles. Il peut améliorer la précision de la récupération des images ou des documents textuels pertinents en fonction des requêtes. L’apprentissage multimodal des graphes est également utilisé dans les véhicules autonomes pour combiner les données provenant de différents capteurs, tels que les caméras, le LiDAR, le radar et le GPS, afin d’améliorer la perception et de prendre des décisions éclairées en matière de conduite.

Les modèles actuels reposent sur la génération d’images/textes à partir de textes/images donnés à l’aide de codeurs d’image pré-entraînés et de LMs (Language Models). Ils utilisent la méthode des modalités appariées avec une correspondance claire et un à un en tant qu’entrée. Dans le contexte de l’apprentissage multimodal des graphes, les modalités font référence à des types ou à des modes distincts de données et de sources d’information. Chaque modalité représente une catégorie ou un aspect spécifique des données et peut revêtir différentes formes. Le problème se pose lors de l’application de ces modèles à des associations many-to-many entre les modalités.

Les chercheurs de l’Université Carnegie Mellon proposent un cadre général et systématique d’apprentissage multimodal des graphes pour des tâches génératives. Leur méthode consiste à capturer des informations provenant de multiple voisinages multimodaux avec des structures relationnelles entre eux. Ils proposent de représenter les relations complexes sous forme de graphes pour capturer des données avec un nombre quelconque de modalités et des relations complexes entre les modalités qui peuvent varier de manière flexible d’un échantillon à l’autre.

Leur modèle extrait les encodages des voisins et les combine avec la structure du graphe, suivi de l’optimisation du modèle avec un fine-tuning efficace en termes de paramètres. Afin de comprendre pleinement les associations many-to-many, l’équipe a étudié des modèles d’encodage de voisinage tels que l’auto-attention avec du texte et des embeddings, l’auto-attention avec uniquement des embeddings et la cross-attention avec des embeddings. Ils ont utilisé le codage de position par vecteur propre du Laplacien (LPE) et le codage du graphe par réseau de neurones (GNN) pour comparer les codages de position séquentiels.

Le fine-tuning nécessite souvent des données étiquetées substantielles spécifiques à la tâche cible. Si vous disposez déjà d’un ensemble de données pertinent ou si vous pouvez l’obtenir à un coût raisonnable, le fine-tuning peut être rentable par rapport à la formation d’un modèle à partir de zéro. Les chercheurs utilisent le fine-tuning avec préfixe et l’approche LoRA pour l’auto-attention avec du texte et des embeddings (SA-TE) et le fine-tuning de style Flamingo pour les modèles de cross-attention avec des embeddings (CA-E). Ils constatent que le fine-tuning avec préfixe utilise près de quatre fois moins de paramètres avec l’encodage de voisinage SA-TE, ce qui réduit les coûts.

Leur travail de recherche est une analyse approfondie visant à poser les bases pour de futures recherches et explorations dans le domaine de l’apprentissage multimodal des graphes. Les chercheurs affirment que les perspectives futures de l’apprentissage multimodal des graphes sont prometteuses et devraient se développer considérablement, grâce aux avancées dans le domaine de l’apprentissage automatique, de la collecte de données et au besoin croissant de traiter des données complexes et multimodales dans diverses applications.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Découvrez Powderworld un environnement de simulation léger pour comprendre la généralisation de l'IA

Malgré les avancées récentes dans la recherche en RL, la capacité à généraliser à de nouvelles tâches reste l’u...

AI

Automatisez l'activité de conception graphique avec le plug-in ChatGPT Canva

Réduisez le temps nécessaire pour développer le design dont vous avez besoin.

AI

Les ajustements de confidentialité de Zoom alimentent les craintes que ses appels ne soient utilisés pour entraîner l'IA.

Zoom a également déclaré que, malgré les utilisations exposées dans ses règles, il n'utilisera pas le contenu audio, ...

AI

Cet article AI présente PolyID l'apprentissage automatique pionnier dans la découverte de polymères biosourcés haute performance.

L’intelligence artificielle est utilisée dans tous les aspects de la vie. L’IA est utilisée dans toutes l...

AI

Le capteur 'impossible' à ondes millimétriques a un large potentiel

Un capteur de démonstration pour les radars à ondes millimétriques peut détecter des vibrations 1 000 fois plus petit...

AI

SalesForce AI Research a développé ProGen un bond en avant dans l'ingénierie des protéines grâce à l'intelligence artificielle.

Le développement de protéines fonctionnelles a été depuis longtemps une quête essentielle dans divers domaines scient...