Le premier AI visuel et linguistique à usage général LLaVA

LLaVA - premier AI visuel et linguistique général

LLaVA : Combler le fossé entre l’IA visuelle et linguistique avec GPT-4

À l’origine publié sur louisbouchard.ai, lisez-le 2 jours avant sur mon blog !

Regardez la vidéo !

GPT-4 est puissant, mais saviez-vous que certains IA sont entièrement construites grâce à lui ? Oui, GPT-4 est si bon qu’il peut être utilisé pour générer des données suffisamment bonnes pour entraîner d’autres modèles d’IA. Et pas n’importe quel modèle, mais des modèles meilleurs que lui-même ! Liu et al. ont utilisé GPT-4 pour créer un modèle de vision linguistique polyvalent appelé LLaVA, le premier modèle polyvalent qui comprend et suit des instructions visuelles et linguistiques. Fondamentalement, un modèle qui a une compréhension presque parfaite du texte et des images en même temps. Vous pouvez donc lui poser n’importe quelle question sur n’importe quelle image. Étant donné que GPT-4 n’est pas encore capable de voir les images, mais qu’il est incroyablement bon avec le texte, nous pouvons lui envoyer les légendes de notre image et lui demander de produire différents types de sorties comme des questions pour Q&R, une description plus détaillée de l’image ou même des questions et réponses de raisonnement sur la légende de l’image. C’est donc ce que les auteurs ont fait. Ils ont donné un rôle et une personnalité au modèle GPT-4 et lui ont demandé de générer différents types de données, tous basés sur la légende initiale de chaque image.

“Un exemple pour illustrer les données de suivi des instructions. Le bloc supérieur montre les contextes tels que les légendes et les boîtes utilisées pour solliciter GPT, et le bloc inférieur montre les trois types de réponses. Notez que l'image visuelle n'est pas utilisée pour solliciter GPT, nous la montrons seulement ici comme référence.” Image et légende du document.

Voici à quoi ressemblaient les instructions données à GPT-4 dans le cas de LLaVA pour construire le meilleur ensemble de données possible afin de permettre au modèle linguistique de comprendre l’image aussi profondément que possible. Passant de la demande de décrire l’image de manière concise à une description exhaustive ou même à une analyse approfondie de celle-ci.

La liste des instructions pour une brève description de l'image. Image tirée du document.

Ces sollicitations générées par les utilisateurs et les réponses générées par GPT-4 peupleront un bon ensemble de données rempli de différentes questions et réponses et descriptions de nos images, nous permettant de former notre IA multimodale, donc une IA qui peut traiter des images et du texte pour ensuite envoyer le…

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Le futur de l'IA dans le développement logiciel tendances et innovations

Explorez le paysage en constante évolution de l'IA dans le développement de logiciels. Découvrez les tendances émerge...

AI

Vectara lance un modèle révolutionnaire à code source ouvert pour évaluer et résoudre les hallucinations dans les modèles de langage d'IA.

Dans une démarche sans précédent visant à favoriser la responsabilisation dans le domaine en constante évolution de l...

AI

15 Meilleures suggestions de ChatGPT pour la gestion du temps

Finissez votre travail tôt cette semaine avec ces 15 suggestions de ChatGPT.

AI

Questions, haussements d'épaules et ce qui vient ensuite Un quart de siècle de changement

Depuis la fondation de Google, nous avons travaillé pour répondre à des questions difficiles, aider les gens à obteni...