Une nouvelle recherche en intelligence artificielle propose un raisonnement multimodal en chaîne de pensée dans les modèles linguistiques qui surclasse GPT-3.5 de 16% (75,17% → 91,68%) sur ScienceQA.
Une nouvelle recherche en IA propose un raisonnement multimodal dans les modèles linguistiques qui surclasse GPT-3.5 de 16% sur ScienceQA.
Grâce aux récents développements technologiques, les grands modèles de langage (LLM) ont réalisé des performances remarquables dans des tâches de raisonnement complexes et sophistiquées. Cela est accompli en générant des étapes de raisonnement intermédiaires pour les démonstrations incitatives, également connues sous le nom de chaîne de pensée (CoT). Cependant, la plupart des travaux actuels sur CoT se concentrent uniquement sur la modalité du langage, et pour extraire le raisonnement CoT en multimodalité, les chercheurs utilisent fréquemment le paradigme Multimodal-CoT. Multimodal-CoT divise les problèmes à plusieurs étapes en processus de raisonnement intermédiaire, générant la sortie finale même lorsque les entrées sont de différentes modalités telles que la vision et le langage. L’une des façons les plus populaires de réaliser Multimodal-CoT est de combiner l’entrée de plusieurs modalités en une seule modalité avant d’inciter les LLM à effectuer CoT. Cependant, cette méthode présente plusieurs inconvénients, notamment la perte d’informations significative qui se produit lors de la conversion de données d’une modalité à une autre. Une autre façon de réaliser le raisonnement CoT en multimodalité est de peaufiner de petits modèles de langage en combinant différentes caractéristiques de la vision et du langage.
Cependant, le principal problème de cette approche est que ces modèles de langage ont tendance à produire des motifs de raisonnement hallucinatoires qui affectent considérablement l’inférence des réponses. Pour atténuer l’impact de ces erreurs, les chercheurs d’Amazon ont proposé Multimodal-CoT, qui combine des caractéristiques visuelles dans un cadre d’entraînement découplé. Le cadre divise le processus de raisonnement en deux phases : la génération de rationnel et l’inférence de réponse. Le modèle produit des arguments plus convaincants en incluant les aspects visuels dans les deux étapes, ce qui contribue à créer des inférences de réponse plus précises. Ce travail est le premier du genre à étudier le raisonnement CoT dans différentes modalités. Sur le benchmark ScienceQA, la technique, telle que fournie par les chercheurs d’Amazon, démontre des performances de pointe, surpassant de 16% la précision de GPT-3.5 et dépassant les performances humaines.
Les étapes d’inférence et de génération de raisonnement de Multimodal-answer CoT utilisent la même architecture de modèle et diffèrent par le type d’entrée et de sortie. En prenant l’exemple d’un modèle vision-langage, le modèle reçoit des données à la fois des domaines visuel et linguistique lors de l’étape de génération de rationnel. Une fois le rationnel produit, il est ensuite ajouté à l’entrée linguistique initiale lors de l’étape d’inférence de réponse pour créer l’entrée linguistique pour l’étape suivante. Le modèle reçoit ensuite les données mises à jour et est entraîné à produire le résultat souhaité. Un modèle basé sur un transformateur qui effectue trois fonctions principales (encodage, interaction et décodage) constitue la base du modèle sous-jacent. Pour le dire simplement, le texte linguistique est fourni à un encodeur Transformer pour créer une représentation textuelle. Cette représentation textuelle est ensuite combinée à la représentation visuelle et alimentée dans le décodeur Transformer.
- Des chercheurs de l’Université de UT Austin présentent PSLD une méthode d’IA qui utilise une diffusion stable pour résoudre tous les problèmes linéaires sans aucun entraînement supplémentaire.
- Top Entreprises d’IA Générative en 2023
- Élever la cohérence au-delà Ce modèle d’IA enseigne aux modèles de diffusion la conscience en 3D pour une génération de texte vers 3D robuste.
Afin d’évaluer l’efficacité de leur méthode, les chercheurs ont effectué de nombreux tests sur le benchmark ScienceQA, un ensemble de données multimodal de questions scientifiques à grande échelle contenant plus de 21 000 QCM multimodaux avec des réponses annotées. Les chercheurs ont conclu que leur approche surpasse de 16% le modèle GPT-3.5, état de l’art précédent, sur le benchmark. En résumé, les chercheurs d’Amazon ont étudié et résolu le problème d’obtention du raisonnement Multimodal-CoT en proposant un cadre à deux étapes en peaufinant les modèles de langage pour combiner les représentations de la vision et du langage afin d’exécuter Multimodal-CoT. Le modèle génère ainsi des rationnels informatifs pour faciliter l’inférence des réponses finales. Le référentiel GitHub du modèle est accessible ci-dessous.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Découvrez LMQL Un langage de programmation et une plateforme open source pour l’interaction avec les modèles de langage de grande envergure (LLM)
- Top 10 projets SQL pour l’analyse de données
- Découvrez Semantic-SAM un modèle universel de segmentation d’images qui segmente et reconnaît des objets à n’importe quelle granularité souhaitée en fonction de l’entrée utilisateur.
- Découvrez AudioGPT un système d’IA multi-modal connectant ChatGPT avec des modèles fondamentaux audio.
- Des chercheurs de l’UC Berkeley proposent FastRLAP un système d’apprentissage de la conduite à grande vitesse grâce à l’apprentissage par renforcement profond (Deep RL) et à la pratique autonome.
- Ne faites pas ces erreurs dans le développement de l’IA
- Un guide complet pour transformer du texte en audio avec Audio-LDM