Contextual AI présente LENS un cadre d’intelligence artificielle pour les modèles de langue augmentés par la vision qui surpasse Flamingo de 9% (56->65%) sur VQAv2.
Contextual AI présente LENS, un cadre d'IA pour les modèles de langue augmentés par la vision qui dépasse Flamingo de 9% (56->65%) sur VQAv2.
Les grands modèles de langage (LLMs) ont transformé la compréhension du langage naturel ces dernières années, démontrant des aptitudes remarquables en compréhension sémantique, résolution de requêtes et production de texte, notamment dans des environnements sans pré-entraînement et à faible pré-entraînement. Comme on peut le voir dans la figure 1(a), plusieurs méthodes ont été proposées pour utiliser les LLMs dans des tâches impliquant la vision. Un codeur optique peut être entraîné à représenter chaque image sous la forme d’une série d’encodages continus, permettant au LLM de la comprendre. Une autre méthode utilise un codeur de vision gelé entraîné de manière contrastive tout en ajoutant des couches supplémentaires au LLM gelé qui sont ensuite apprises à partir de zéro.
Une autre méthode recommande d’entraîner un transformateur léger pour aligner un codeur visuel gelé (pré-entraîné de manière contrastive) et un LLM gelé. Même s’ils ont progressé dans les recherches mentionnées ci-dessus, il est encore difficile de justifier le coût computationnel supplémentaire des étapes de pré-entraînement supplémentaires. De plus, des bases de données massives, comprenant du texte, des photos et des vidéos, sont nécessaires pour synchroniser les modalités visuelles et linguistiques avec un LLM existant. Flamingo ajoute de nouvelles couches de cross-attention à un LLM pré-entraîné pour ajouter des caractéristiques visuelles.
La phase de pré-entraînement multimodal nécessite 2 milliards de paires image-texte et 43 millions de sites Web, ce qui peut prendre jusqu’à 15 jours, même en utilisant un codeur d’image pré-entraîné et un LLM gelé pré-entraîné. Au lieu de cela, en utilisant une variété de “modules de vision”, ils peuvent extraire des informations à partir d’entrées visuelles et produire des représentations textuelles détaillées (telles que des tags, des attributs, des actions et des relations, entre autres), qu’ils peuvent ensuite transmettre directement au LLM pour éviter la nécessité d’un pré-entraînement multimodal supplémentaire, comme le montre la figure 1(b). Les chercheurs de Contextual AI et de l’Université Stanford présentent LENS (Large Language Models Enhanced to See), une stratégie modulaire qui utilise un LLM comme “module de raisonnement” et fonctionne avec des “modules de vision” séparés.
- Avec cinq nouveaux modèles multimodaux à travers les échelles 3B, 4B et 9B, l’équipe OpenFlamingo publie OpenFlamingo v2 qui surpasse le modèle précédent.
- Unity annonce la sortie de Muse une plateforme de jeux vidéo de texte-à-vidéo qui vous permet de créer des textures, des sprites et des animations avec le langage naturel.
- Rencontrez FastSAM La solution révolutionnaire en temps réel qui réalise une segmentation haute performance avec une charge computationnelle minimale.
Ils extraient d’abord des informations textuelles riches dans la technique LENS en utilisant des modules de vision pré-entraînés, tels que des modèles contrastifs et des modèles de légendage d’images. Le texte est ensuite envoyé au LLM, lui permettant d’effectuer des tâches, notamment la reconnaissance d’objets, la vision et le langage (V&L). LENS comble le fossé entre les modalités sans frais supplémentaires en éliminant la nécessité d’étapes de pré-entraînement multimodal ou de données supplémentaires. L’intégration de LENS nous permet d’utiliser immédiatement les derniers développements en vision par ordinateur et en traitement du langage naturel, maximisant les avantages associés aux deux disciplines.
Ils fournissent les contributions suivantes :
• Ils présentent LENS, une méthode modulaire qui résout les problèmes de vision par ordinateur en utilisant les capacités d’apprentissage en quelques exemples et en contexte des modèles de langage à l’aide de descriptions en langage naturel des entrées visuelles.
• LENS donne à n’importe quel LLM prêt à l’emploi la capacité de voir sans autre formation ou données.
• Ils utilisent des LLM gelés pour gérer la reconnaissance d’objets et les tâches de raisonnement visuel sans alignement vision-et-langage supplémentaire ou données multimodales. Les résultats expérimentaux montrent que leur approche atteint des performances sans pré-entraînement qui sont comparables ou supérieures aux modèles pré-entraînés en mode end-to-end tels que Kosmos et Flamingo. Une implémentation partielle de leur article est disponible sur GitHub.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Si la communication orale et écrite a permis aux humains de développer leur intelligence… Qu’en est-il des modèles linguistiques ?
- Entraînement à grande échelle libéré Deepmind présente OWLv2 et OWL-ST, les outils révolutionnaires pour la détection d’objets en vocabulaire ouvert, alimentés par des techniques d’auto-formation sans précédent.
- Démocratisez la détection des défauts de vision par ordinateur pour la qualité de fabrication en utilisant l’apprentissage automatique sans code avec Amazon SageMaker Canvas.
- Qu’est-ce que l’IA d’entreprise ?
- Rencontrez DORSal un modèle de diffusion structurée en 3D pour la génération et la modification d’objets au niveau des scènes 3D.
- Créez un chatbot IA en 5 minutes avec Hugging Face et Gradio
- Rencontrez LOMO (LOw-Memory Optimization) un nouvel optimiseur d’IA qui fusionne le calcul du gradient et la mise à jour des paramètres en une seule étape pour réduire l’utilisation de la mémoire.