Les chercheurs de la CMU présentent MultiModal Graph Learning (MMGL) un nouveau cadre d’intelligence artificielle permettant de capturer des informations provenant de multiples voisins multimodaux avec des structures relationnelles entre eux.
Les chercheurs de la CMU révolutionnent l'intelligence artificielle avec MultiModal Graph Learning (MMGL) une nouvelle approche pour capturer des informations provenant de multiples voisins multimodaux et leurs relations structurées.
L’apprentissage multimodal des graphes est un domaine multidisciplinaire qui combine des concepts de l’apprentissage automatique, de la théorie des graphes et de la fusion de données pour résoudre des problèmes complexes impliquant diverses sources de données et leurs interconnexions. L’apprentissage multimodal des graphes peut générer des légendes descriptives pour les images en combinant des données visuelles avec des informations textuelles. Il peut améliorer la précision de la récupération des images ou des documents textuels pertinents en fonction des requêtes. L’apprentissage multimodal des graphes est également utilisé dans les véhicules autonomes pour combiner les données provenant de différents capteurs, tels que les caméras, le LiDAR, le radar et le GPS, afin d’améliorer la perception et de prendre des décisions éclairées en matière de conduite.
Les modèles actuels reposent sur la génération d’images/textes à partir de textes/images donnés à l’aide de codeurs d’image pré-entraînés et de LMs (Language Models). Ils utilisent la méthode des modalités appariées avec une correspondance claire et un à un en tant qu’entrée. Dans le contexte de l’apprentissage multimodal des graphes, les modalités font référence à des types ou à des modes distincts de données et de sources d’information. Chaque modalité représente une catégorie ou un aspect spécifique des données et peut revêtir différentes formes. Le problème se pose lors de l’application de ces modèles à des associations many-to-many entre les modalités.
Les chercheurs de l’Université Carnegie Mellon proposent un cadre général et systématique d’apprentissage multimodal des graphes pour des tâches génératives. Leur méthode consiste à capturer des informations provenant de multiple voisinages multimodaux avec des structures relationnelles entre eux. Ils proposent de représenter les relations complexes sous forme de graphes pour capturer des données avec un nombre quelconque de modalités et des relations complexes entre les modalités qui peuvent varier de manière flexible d’un échantillon à l’autre.
- 5 Idées pour favoriser l’engagement des scientifiques/analystes de données sans étouffer dans les réunions
- CountVectorizer pour extraire des caractéristiques à partir de textes en Python, en détail
- Comprendre la rétention avec Gradio
Leur modèle extrait les encodages des voisins et les combine avec la structure du graphe, suivi de l’optimisation du modèle avec un fine-tuning efficace en termes de paramètres. Afin de comprendre pleinement les associations many-to-many, l’équipe a étudié des modèles d’encodage de voisinage tels que l’auto-attention avec du texte et des embeddings, l’auto-attention avec uniquement des embeddings et la cross-attention avec des embeddings. Ils ont utilisé le codage de position par vecteur propre du Laplacien (LPE) et le codage du graphe par réseau de neurones (GNN) pour comparer les codages de position séquentiels.
Le fine-tuning nécessite souvent des données étiquetées substantielles spécifiques à la tâche cible. Si vous disposez déjà d’un ensemble de données pertinent ou si vous pouvez l’obtenir à un coût raisonnable, le fine-tuning peut être rentable par rapport à la formation d’un modèle à partir de zéro. Les chercheurs utilisent le fine-tuning avec préfixe et l’approche LoRA pour l’auto-attention avec du texte et des embeddings (SA-TE) et le fine-tuning de style Flamingo pour les modèles de cross-attention avec des embeddings (CA-E). Ils constatent que le fine-tuning avec préfixe utilise près de quatre fois moins de paramètres avec l’encodage de voisinage SA-TE, ce qui réduit les coûts.
Leur travail de recherche est une analyse approfondie visant à poser les bases pour de futures recherches et explorations dans le domaine de l’apprentissage multimodal des graphes. Les chercheurs affirment que les perspectives futures de l’apprentissage multimodal des graphes sont prometteuses et devraient se développer considérablement, grâce aux avancées dans le domaine de l’apprentissage automatique, de la collecte de données et au besoin croissant de traiter des données complexes et multimodales dans diverses applications.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Le Côté Méconnu de RAG En Prenant en Compte ses Défis dans les Recherches Spécifiques à un Domaine
- Oh, Tu veux dire Gérer le changement?
- Révolutionnez la collecte de fonds à but non lucratif grâce aux analyses prédictives alimentées par l’IA.
- Nombres Aléatoires en Apprentissage Automatique
- Distributions discrètes univariées Une explication facile à comprendre
- CLIP, Expliqué Intuitivement et Exhaustivement
- QLoRA Formation d’un modèle linguistique puissant sur une carte graphique de 16 Go.