Dévoiler les secrets des neurones multimodaux Un voyage de Molyneux aux Transformateurs

Dévoiler les secrets des neurones multimodaux Un voyage fascinant de Molyneux aux Transformateurs

Les Transformers pourraient être l’une des innovations les plus importantes dans le domaine de l’intelligence artificielle. Ces architectures de réseaux neuronaux, introduites en 2017, ont révolutionné la manière dont les machines comprennent et génèrent le langage humain.

Contrairement à leurs prédécesseurs, les Transformers s’appuient sur des mécanismes d’auto-attention pour traiter les données d’entrée en parallèle, ce qui leur permet de capturer les relations cachées et les dépendances au sein de séquences d’informations. Cette capacité de traitement en parallèle a non seulement accéléré les temps d’apprentissage, mais a également ouvert la voie au développement de modèles d’une sophistication et d’une performance significatives, comme le célèbre ChatGPT.

Les années récentes nous ont montré à quel point les réseaux neuronaux artificiels sont devenus compétents dans une variété de tâches. Ils ont changé les tâches de langage, les tâches de vision, etc. Mais le véritable potentiel réside dans les tâches multimodales, où ils intègrent diverses modalités sensorielles, telles que la vision et le texte. Ces modèles ont été enrichis avec des entrées sensorielles supplémentaires et ont atteint des performances impressionnantes dans des tâches qui nécessitent la compréhension et le traitement d’informations provenant de différentes sources.

En 1688, un philosophe du nom de William Molyneux a posé une énigme fascinante à John Locke qui continuerait de captiver les esprits des chercheurs pendant des siècles. La question qu’il a posée était simple mais profonde : si une personne aveugle de naissance acquérait soudainement la vue, serait-elle capable de reconnaître des objets qu’elle connaissait auparavant uniquement par le toucher et les autres sens non visuels ? Cette interrogation intrigante, connue sous le nom de problème de Molyneux, plonge non seulement dans les domaines de la philosophie mais a également d’importantes implications pour la science de la vision.

En 2011, les neuroscientifiques de la vision ont lancé une mission pour répondre à cette question séculaire. Ils ont découvert qu’une reconnaissance visuelle immédiate des objets précédemment perçus uniquement par le toucher n’était pas réalisable. Cependant, la révélation importante était que nos cerveaux sont remarquablement adaptables. En quelques jours après une opération rétablissant la vue, les individus pouvaient apprendre rapidement à reconnaître visuellement des objets, comblant ainsi le fossé entre différentes modalités sensorielles.

Ce phénomène est-il également valable pour les neurones multimodaux ? Il est temps de découvrir la réponse.

Les neurones multimodaux dans les MLP Transformers s’activent sur des caractéristiques spécifiques. Source : https://arxiv.org/pdf/2308.01544.pdf

Nous nous trouvons au milieu d’une révolution technologique. Les réseaux neuronaux artificiels, en particulier ceux entraînés sur des tâches linguistiques, ont montré une remarquable compétence dans les tâches multimodales, où ils intègrent différentes modalités sensorielles, telles que la vision et le texte. Ces modèles ont été enrichis avec des entrées sensorielles supplémentaires et ont atteint des performances impressionnantes dans des tâches nécessitant la compréhension et le traitement d’informations provenant de différentes sources.

Une approche courante dans ces modèles vision-langage consiste à utiliser une forme de préfixe-accord conditionné par une image. Dans cette configuration, un codeur d’image séparé est aligné avec un décodeur de texte, souvent à l’aide d’une couche adaptatrice apprise. Bien que plusieurs méthodes aient utilisé cette stratégie, elles se sont généralement appuyées sur des codeurs d’image, tels que CLIP, entraînés aux côtés des modèles linguistiques.

Cependant, une étude récente, LiMBeR, a introduit un scénario unique qui fait écho au problème de Molyneux chez les machines. Ils ont utilisé un réseau d’images auto-supervisé, BEIT, qui n’avait jamais vu de données linguistiques, et l’ont connecté à un modèle linguistique, GPT-J, à l’aide d’une couche de projection linéaire entraînée sur une tâche d’image à texte. Cette configuration intrigante soulève des questions fondamentales : la traduction des sémantiques entre les modalités se produit-elle au sein de la couche de projection, ou l’alignement des représentations visuelles et linguistiques se produit-il à l’intérieur du modèle linguistique lui-même ?

Les cinq principaux neurones multimodaux pour une image échantillon de 6 supercatégories COCO. Source : https://arxiv.org/pdf/2308.01544.pdf

Les recherches présentées par les auteurs du MIT cherchent à trouver des réponses à ce mystère vieux de 4 siècles et à éclairer le fonctionnement de ces modèles multimodaux.

Tout d’abord, ils ont découvert que les stimuli visuels transformés dans l’espace d’encodage du transformer n’encode pas de sémantique interprétable. Au lieu de cela, la traduction entre les modalités se produit à l’intérieur du transformer.

Ensuite, des neurones multimodaux, capables de traiter à la fois des informations visuelles et textuelles avec une sémantique similaire, ont été découverts dans les MLPs textuelles. Ces neurones jouent un rôle crucial dans la traduction des représentations visuelles en langage.

La dernière et peut-être la découverte la plus importante est que ces neurones multimodaux ont un effet causal sur la sortie du modèle. La modulation de ces neurones peut entraîner la suppression de concepts spécifiques des légendes d’images, mettant en évidence leur importance dans la compréhension multimodale du contenu.

Cette enquête sur le fonctionnement interne des unités individuelles au sein des réseaux profonds révèle une mine d’informations. Tout comme les unités de convolution dans les classifieurs d’images peuvent détecter les couleurs et les motifs, et plus tard les unités peuvent reconnaître les catégories d’objets, des neurones multimodaux se retrouvent également dans les transformers. Ces neurones sont sélectifs pour les images et les textes ayant une sémantique similaire.

De plus, des neurones multimodaux peuvent émerger même lorsque la vision et le langage sont appris séparément. Ils peuvent convertir efficacement les représentations visuelles en texte cohérent. Cette capacité à aligner les représentations entre les modalités a des implications étendues, faisant des modèles de langage des outils puissants pour diverses tâches impliquant une modélisation séquentielle, de la prédiction de stratégies de jeu à la conception de protéines.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Déverrouiller la porte de la science des données Votre guide d'étude ultime pour le GATE 2024 en DS & AI

Introduction Le Graduate Aptitude Test in Engineering (GATE) est un examen d’entrée en Inde pour l’admiss...

AI

Établissez la confiance et la sécurité pour les applications d'IA générative avec Amazon Comprehend et LangChain

Nous assistons à une augmentation rapide de l'adoption de grands modèles linguistiques (LLM) qui alimentent des appli...

AI

Les chercheurs de Cambridge développent l'incertitude dans les systèmes d'apprentissage automatique

Dans un monde d’incertitudes humaines, embrasser l’incertitude pourrait aider les machines et les humains...

AI

Robot prend le podium en tant que chef d'orchestre à Séoul

Un robot androïde développé par l'Institut coréen de technologie industrielle de Corée du Sud a récemment dirigé l'or...

AI

Débloquer des générations fiables grâce à une chaîne de vérification un bond en avant dans l'ingénierie rapide.

Découvrez la méthode d'ingénierie de prompt de chaîne de vérification, une étape importante vers la réduction des hal...

AI

DeepSeek LLM le dernier modèle linguistique de la Chine

Dans un développement récent, le DeepSeek LLM s’est affirmé comme une force redoutable dans le domaine des modè...