Une nouvelle recherche en intelligence artificielle en provenance de Chine propose Meta-Transformer un cadre d’intelligence artificielle unifié pour l’apprentissage multimodal

Nouvelle recherche IA de Chine Meta-Transformer, cadre unifié pour l'apprentissage multimodal.

Le cerveau humain, considéré comme le paradigme des théories des réseaux neuronaux, traite simultanément des informations provenant de différentes entrées sensorielles, telles que les signaux visuels, auditifs et tactiles. De plus, la compréhension d’une source peut aider la connaissance d’une autre. Cependant, en raison de l’écart de modalité élevé dans l’apprentissage profond, la construction d’un réseau unifié capable de traiter différentes formes d’entrée demande beaucoup de travail. Les modèles entraînés sur une modalité de données doivent être ajustés pour fonctionner avec les différentes configurations de données de chaque modalité de données. Contrairement à la langue parlée, les photographies présentent un degré significatif de redondance d’informations causée par les pixels étroitement emballés dans les images.

En revanche, les nuages de points sont difficiles à décrire en raison de leur distribution clairsemée dans l’espace en 3D et de leur sensibilité accrue au bruit. Les spectrogrammes audio sont des modèles de données non stationnaires et variant dans le temps, composés de combinaisons d’ondes provenant de différents domaines de fréquence. Les données vidéo ont la capacité unique d’enregistrer des informations spatiales et des dynamiques temporelles car elles se composent d’une série d’images. Les modèles de données graphiques représentent des interactions complexes et multiples entre les entités en représentant les éléments sous forme de nœuds et les relations sous forme d’arêtes dans un graphe. En raison des disparités significatives entre les différentes modalités de données, il est courant de recourir à d’autres topologies de réseau pour coder chaque modalité de données de manière indépendante.

Par exemple, le Point Transformer utilise une attention de position au niveau des vecteurs pour extraire des informations structurelles à partir des coordonnées 3D. Cependant, il ne peut pas encoder une image, une phrase de langage naturel ou une tranche de spectrogramme audio. Par conséquent, la création d’un cadre unique capable d’utiliser un espace de paramètres partagé par plusieurs modalités pour coder différents types de données demande du temps et des efforts. Grâce à une préformation multimodale approfondie sur des données appariées, des cadres unifiés récemment développés tels que VLMO, OFA et BEiT-3 ont amélioré la capacité du réseau à comprendre les multimodalités. Cependant, en raison de leur plus grande emphase sur la vision et le langage, ils ne peuvent pas partager l’ensemble de l’encodeur entre les modalités. L’apprentissage profond a grandement bénéficié de l’architecture des transformateurs et du mécanisme d’attention présentés par d’autres chercheurs pour le traitement du langage naturel (NLP).

Ces développements ont considérablement amélioré la perception dans une variété de modalités, y compris la vision 2D (notamment ViT et Swin Transformer), la vision 3D (notamment le Point Transformer et Point-ViT), le traitement des signaux auditifs (AST), etc. Ces études ont illustré l’adaptabilité des conceptions basées sur les transformateurs et ont motivé les universitaires à étudier la possibilité de créer des modèles de base pour combiner plusieurs modalités, réalisant éventuellement une perception humaine à tous les niveaux. La figure 1 illustre comment ils explorent le potentiel de la conception des transformateurs pour gérer 12 modalités, y compris les images, le langage naturel, les nuages de points, les spectrogrammes audio, les vidéos, l’infrarouge, l’hyperspectral, les rayons X, les IMU, les données tabulaires, les graphiques et les séries chronologiques.

Figure 1: Apprentissage multimodal unifié – Le langage naturel, l’image, le nuage de points, l’audio, la vidéo, l’infrarouge, l’hyperspectral, les rayons X, les séries chronologiques, les données tabulaires, les unités de mesure inertielle (IMU) et les données graphiques sont tous encodés par Meta-Transformer en utilisant la même structure de base. Il démontre comment les systèmes de transformation peuvent fournir une intelligence multimodale unifiée.

Ils discutent du processus d’apprentissage pour chaque modalité en utilisant les transformateurs et abordent les difficultés de les combiner dans un cadre unifié. Par conséquent, des chercheurs de l’Université chinoise de Hong Kong et du Shanghai AI Lab proposent un tout nouveau cadre intégré d’apprentissage multimodal appelé Meta-Transformer. Le premier cadre, Meta-Transformer, utilise le même ensemble de paramètres pour encoder simultanément l’entrée de douze modalités différentes, permettant une approche plus intégrée de l’apprentissage multimodal. Un spécialiste de la modalité pour la tokenisation des données en séquence, un encodeur partagé pour extraire des représentations entre les modalités et des têtes spécifiques aux tâches pour les tâches aval sont les trois composants simples mais précieux de Meta-Transformer. Pour être plus précis, le Meta-Transformer crée d’abord des séquences de jetons avec des espaces de variétés partagées à partir de données multimodales.

Après cela, les représentations sont extraites à l’aide d’un encodeur à partage de modalités avec des paramètres figés. Les tâches individuelles sont ensuite adaptées à l’aide de légers tokenizers et des paramètres mis à jour des têtes de tâches spécifiques. Enfin, cette approche simple permet de former efficacement des représentations spécifiques à la tâche et génériques aux modalités. Ils mènent des recherches approfondies en utilisant plusieurs normes provenant de 12 modalités. Meta-Transformer réalise une performance exceptionnelle dans le traitement de données provenant de plusieurs modalités, surpassant systématiquement les techniques de pointe dans diverses tâches d’apprentissage multimodal en utilisant uniquement des images du jeu de données LAION-2B pour la préformation.

En conclusion, leurs contributions sont les suivantes:

• Ils proposent un cadre unique appelé Meta-Transformer pour la recherche multimodale qui permet à un seul encodeur d’extraire simultanément des représentations de plusieurs modalités en utilisant le même ensemble de paramètres.

• Ils examinent en détail les rôles joués par les composants du transformateur tels que les embeddings, la tokenisation et les encodeurs dans le traitement de plusieurs modalités pour l’architecture de réseau multimodal.

• Expérimentalement, Meta-Transformer atteint des performances exceptionnelles sur divers ensembles de données concernant 12 modalités, ce qui valide le potentiel supplémentaire de Meta-Transformer pour l’apprentissage multimodal unifié.

• Meta-Transformer ouvre une nouvelle voie prometteuse dans le développement d’un cadre agnostique des modalités qui unifie toutes les modalités.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Les chercheurs de l'Université de technologie de Nanyang dévoilent la vidéo Upscale-A une diffusion latente guidée par texte pionnière pour une super-résolution vidéo améliorée.

La super-résolution vidéo, qui vise à améliorer la qualité de vidéos de basse qualité pour les rendre haute fidélité,...

AI

Exploration du NLP - Lancement du NLP (Étape n°3)

Voici quelques concepts sur lesquels j'ai travaillé cette semaine, en particulier sur les embeddings de mots. J'ai ég...

AI

Étape franchie dans une nouvelle architecture de calcul quantique

Les scientifiques ont étendu le temps de cohérence d'une classe unique de qubit quantique à 0,1 milliseconde, dépassa...

AI

SageMaker Distribution est maintenant disponible sur Amazon SageMaker Studio

SageMaker Distribution est une image Docker pré-construite contenant de nombreux packages populaires pour l'apprentis...