Contextual AI présente LENS un cadre d’intelligence artificielle pour les modèles de langue augmentés par la vision qui surpasse Flamingo de 9% (56->65%) sur VQAv2.

Contextual AI présente LENS, un cadre d'IA pour les modèles de langue augmentés par la vision qui dépasse Flamingo de 9% (56->65%) sur VQAv2.

Les grands modèles de langage (LLMs) ont transformé la compréhension du langage naturel ces dernières années, démontrant des aptitudes remarquables en compréhension sémantique, résolution de requêtes et production de texte, notamment dans des environnements sans pré-entraînement et à faible pré-entraînement. Comme on peut le voir dans la figure 1(a), plusieurs méthodes ont été proposées pour utiliser les LLMs dans des tâches impliquant la vision. Un codeur optique peut être entraîné à représenter chaque image sous la forme d’une série d’encodages continus, permettant au LLM de la comprendre. Une autre méthode utilise un codeur de vision gelé entraîné de manière contrastive tout en ajoutant des couches supplémentaires au LLM gelé qui sont ensuite apprises à partir de zéro.

Une autre méthode recommande d’entraîner un transformateur léger pour aligner un codeur visuel gelé (pré-entraîné de manière contrastive) et un LLM gelé. Même s’ils ont progressé dans les recherches mentionnées ci-dessus, il est encore difficile de justifier le coût computationnel supplémentaire des étapes de pré-entraînement supplémentaires. De plus, des bases de données massives, comprenant du texte, des photos et des vidéos, sont nécessaires pour synchroniser les modalités visuelles et linguistiques avec un LLM existant. Flamingo ajoute de nouvelles couches de cross-attention à un LLM pré-entraîné pour ajouter des caractéristiques visuelles.

Figure 1: Comparaison des méthodes de coordination des modalités visuelles et linguistiques. Il existe deux options pour le pré-entraînement multimodal : (a) l’utilisation d’un ensemble de données appariées ou du Web ; et (b) LENS, une technique sans pré-entraînement qui peut être utilisée avec n’importe quel LLM prêt à l’emploi sans nécessiter de jeux de données multimodaux supplémentaires. Contrairement à LENS, les approches précédentes nécessitent un pré-entraînement conjoint d’alignement sur des ensembles de données multimodaux importants pour accomplir des tâches visuelles.

La phase de pré-entraînement multimodal nécessite 2 milliards de paires image-texte et 43 millions de sites Web, ce qui peut prendre jusqu’à 15 jours, même en utilisant un codeur d’image pré-entraîné et un LLM gelé pré-entraîné. Au lieu de cela, en utilisant une variété de “modules de vision”, ils peuvent extraire des informations à partir d’entrées visuelles et produire des représentations textuelles détaillées (telles que des tags, des attributs, des actions et des relations, entre autres), qu’ils peuvent ensuite transmettre directement au LLM pour éviter la nécessité d’un pré-entraînement multimodal supplémentaire, comme le montre la figure 1(b). Les chercheurs de Contextual AI et de l’Université Stanford présentent LENS (Large Language Models Enhanced to See), une stratégie modulaire qui utilise un LLM comme “module de raisonnement” et fonctionne avec des “modules de vision” séparés.

Ils extraient d’abord des informations textuelles riches dans la technique LENS en utilisant des modules de vision pré-entraînés, tels que des modèles contrastifs et des modèles de légendage d’images. Le texte est ensuite envoyé au LLM, lui permettant d’effectuer des tâches, notamment la reconnaissance d’objets, la vision et le langage (V&L). LENS comble le fossé entre les modalités sans frais supplémentaires en éliminant la nécessité d’étapes de pré-entraînement multimodal ou de données supplémentaires. L’intégration de LENS nous permet d’utiliser immédiatement les derniers développements en vision par ordinateur et en traitement du langage naturel, maximisant les avantages associés aux deux disciplines.

Ils fournissent les contributions suivantes :

• Ils présentent LENS, une méthode modulaire qui résout les problèmes de vision par ordinateur en utilisant les capacités d’apprentissage en quelques exemples et en contexte des modèles de langage à l’aide de descriptions en langage naturel des entrées visuelles.

• LENS donne à n’importe quel LLM prêt à l’emploi la capacité de voir sans autre formation ou données.

• Ils utilisent des LLM gelés pour gérer la reconnaissance d’objets et les tâches de raisonnement visuel sans alignement vision-et-langage supplémentaire ou données multimodales. Les résultats expérimentaux montrent que leur approche atteint des performances sans pré-entraînement qui sont comparables ou supérieures aux modèles pré-entraînés en mode end-to-end tels que Kosmos et Flamingo. Une implémentation partielle de leur article est disponible sur GitHub.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Les chercheurs de NYU ont créé un réseau neuronal pour la génomique qui peut expliquer comment il parvient à ses prédictions.

Dans le domaine de la recherche biologique, les modèles d’apprentissage automatique font des avancées significa...

AI

Top 40+ Outils de l'IA générative (décembre 2023)

ChatGPT – GPT-4 GPT-4 est le dernier LLM d’OpenAI, qui est plus inventif, précis et sûr que ses prédécesseurs. ...

AI

Un nouvel ensemble de données d'images de l'Arctique stimulera la recherche en intelligence artificielle

Le jeu de données, collecté dans le cadre d'une mission scientifique de la Garde côtière américaine, sera publié en o...

AI

Découverte ahurissante Comment l'IA résout les problèmes mathématiques irrésolus

Malgré la nécessité de jeter une grande partie de leur production, des pierres précieuses ont été retrouvées dans les...

AI

20 Alternatives à essayer en milieu de parcours en 2023

Shutterstock.AI Shutterstock.AI est une plateforme de création et d’édition d’images générées par l’...

AI

Top 10 des outils pour détecter ChatGPT, GPT-4, Bard et Claude.

Meilleurs outils gratuits pour détecter les thèses, les articles de recherche, les devoirs, la documentation et les b...