Le premier AI visuel et linguistique à usage général LLaVA
LLaVA - premier AI visuel et linguistique général
LLaVA : Combler le fossé entre l’IA visuelle et linguistique avec GPT-4
À l’origine publié sur louisbouchard.ai, lisez-le 2 jours avant sur mon blog !
Regardez la vidéo !
GPT-4 est puissant, mais saviez-vous que certains IA sont entièrement construites grâce à lui ? Oui, GPT-4 est si bon qu’il peut être utilisé pour générer des données suffisamment bonnes pour entraîner d’autres modèles d’IA. Et pas n’importe quel modèle, mais des modèles meilleurs que lui-même ! Liu et al. ont utilisé GPT-4 pour créer un modèle de vision linguistique polyvalent appelé LLaVA, le premier modèle polyvalent qui comprend et suit des instructions visuelles et linguistiques. Fondamentalement, un modèle qui a une compréhension presque parfaite du texte et des images en même temps. Vous pouvez donc lui poser n’importe quelle question sur n’importe quelle image. Étant donné que GPT-4 n’est pas encore capable de voir les images, mais qu’il est incroyablement bon avec le texte, nous pouvons lui envoyer les légendes de notre image et lui demander de produire différents types de sorties comme des questions pour Q&R, une description plus détaillée de l’image ou même des questions et réponses de raisonnement sur la légende de l’image. C’est donc ce que les auteurs ont fait. Ils ont donné un rôle et une personnalité au modèle GPT-4 et lui ont demandé de générer différents types de données, tous basés sur la légende initiale de chaque image.

Voici à quoi ressemblaient les instructions données à GPT-4 dans le cas de LLaVA pour construire le meilleur ensemble de données possible afin de permettre au modèle linguistique de comprendre l’image aussi profondément que possible. Passant de la demande de décrire l’image de manière concise à une description exhaustive ou même à une analyse approfondie de celle-ci.

Ces sollicitations générées par les utilisateurs et les réponses générées par GPT-4 peupleront un bon ensemble de données rempli de différentes questions et réponses et descriptions de nos images, nous permettant de former notre IA multimodale, donc une IA qui peut traiter des images et du texte pour ensuite envoyer le…
- Nouvelle technique d’ingénierie de prompt ChatGPT simulation de programme
- Créez votre première autocorrection sans apprentissage automatique
- Au-delà des tutoriels Apprendre l’analyse de données avec l’agent Pandas de LangChain
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Des chercheurs d’Inception, de MBZUAI et de Cerebras ont ouvert en open source Jais le modèle de langage arabe le plus avancé au monde.
- ANPR avec YOLOV8
- Apprentissage profond efficace libérer la puissance de la compression de modèle
- Le fondu contrôlé
- Outils de visioconférence les plus performants en 2023
- Le paysage actuel du leadership en matière de données et de technologie – Le directeur de l’IA remplacera-t-il le directeur de la numérisation?
- Choisir la bonne stratégie GPU pour votre projet d’intelligence artificielle