Nouveau modèle de langage multimodal KOSMOS-2 introduit par les chercheurs de Microsoft
New multimodal language model KOSMOS-2 introduced by Microsoft researchers.
Dans un nouvel article, les chercheurs de Microsoft ont présenté KOSMOS-2, un nouveau modèle de langage multimodal de grande taille qui a été en mesure de démontrer son succès en tant qu’interface polyvalente. KOSMOS-2 vise à révolutionner l’interaction entre les humains et l’IA dans les tâches de langage, de vision et de vision-langage en incorporant des capacités d’ancrage.
Les modèles de langage multimodaux de grande taille, ou MLLM pour faire court, sont apparus comme une interface polyvalente. Cela est dû à leur performance remarquable dans diverses activités. La capacité de ces modèles à comprendre et à générer des réponses en utilisant différentes modalités telles que le texte, les images et l’audio les rend précieux. KOSMOS-2 pousse cette capacité à de nouveaux sommets en permettant l’ancrage de modèles de langage multimodaux de grande taille.
Les capacités d’ancrage sont particulièrement cruciales dans les activités de vision-langage, car elles offrent une interface homme-IA plus pratique et plus efficace. KOSMOS-2 peut interpréter des régions spécifiques dans les images en fonction de leurs coordonnées géographiques, permettant aux utilisateurs de pointer facilement des éléments ou des régions d’intérêt au lieu de s’appuyer sur de longues descriptions textuelles.
- Nouvelle politique d’IA définie par le PDG des Grammys
- Alibaba a lancé un nouvel outil d’IA pour générer des images à partir d’une entrée textuelle.
- Le patron de Microsoft n’est pas préoccupé par le fait que l’IA prendra le contrôle
Une des caractéristiques remarquables de KOSMOS-2 est sa capacité à fournir des réponses visuelles, telles que des boîtes englobantes. Cette capacité facilite grandement les tâches de vision-langage en éliminant l’ambiguïté de coréférence et en offrant des références visuelles précises et claires. En reliant les syntagmes nominaux et les termes de référence à des zones spécifiques de l’image, KOSMOS-2 génère des réponses plus précises, informatives et complètes.
Pour doter KOSMOS-2 de capacités d’ancrage, l’équipe de Microsoft Research a construit un ensemble de données à grande échelle de paires image-texte ancrées. En intégrant cet ensemble de données aux corpus multimodaux existants dans KOSMOS-1, le modèle a été entraîné à exploiter pleinement son potentiel d’ancrage. Le processus a consisté à extraire et à relier des fragments de texte pertinents, tels que des syntagmes nominaux et des expressions de référence, à des positions spatiales représentées par des boîtes englobantes.
Ces coordonnées spatiales ont ensuite été traduites en jetons de localisation, créant un format de données qui agit comme un “hyperlien” reliant les éléments de l’image à la légende. Les résultats expérimentaux montrent que KOSMOS-2 excelle dans des tâches d’ancrage telles que l’ancrage de phrases et la compréhension des expressions de référence.
Enfin, selon l’article, il obtient des performances compétitives dans les tâches de langage et de vision-langage évaluées dans KOSMOS-1. L’inclusion de capacités d’ancrage ouvre un ensemble d’applications supplémentaires pour KOSMOS-2, notamment la légende d’image ancrée et la réponse à des questions visuelles ancrées.
Si cela vous intéresse, vous pouvez explorer les capacités de KOSMOS-2 grâce à une démo en ligne disponible sur GitHub.
Note de l’éditeur : Êtes-vous prêt à découvrir les dernières avancées en matière d’IA générative ? Rejoignez-nous pour le sommet de l’IA générative d’une journée. Allez au-delà du battage médiatique et plongez plus en profondeur dans cette technologie de pointe. Inscrivez-vous dès maintenant gratuitement et débloquez le pouvoir de l’IA générative.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Où en est l’IA générative en matière de confidentialité et de sécurité aujourd’hui
- 8 Modèles linguistiques larges et nouveaux à surveiller
- Comment l’IA générative est devenue une compétence indispensable
- Déboguez les modèles de détection d’objets avec le tableau de bord de l’IA responsable
- 5 Considérations éthiques pour l’IA générative
- Construction de systèmes LLM fiables avec des plans
- Pourquoi l’IA est devenue la compétence de développement la plus recherchée de 2023