Une nouvelle recherche en intelligence artificielle propose un raisonnement multimodal en chaîne de pensée dans les modèles linguistiques qui surclasse GPT-3.5 de 16% (75,17% → 91,68%) sur ScienceQA.

Une nouvelle recherche en IA propose un raisonnement multimodal dans les modèles linguistiques qui surclasse GPT-3.5 de 16% sur ScienceQA.

Grâce aux récents développements technologiques, les grands modèles de langage (LLM) ont réalisé des performances remarquables dans des tâches de raisonnement complexes et sophistiquées. Cela est accompli en générant des étapes de raisonnement intermédiaires pour les démonstrations incitatives, également connues sous le nom de chaîne de pensée (CoT). Cependant, la plupart des travaux actuels sur CoT se concentrent uniquement sur la modalité du langage, et pour extraire le raisonnement CoT en multimodalité, les chercheurs utilisent fréquemment le paradigme Multimodal-CoT. Multimodal-CoT divise les problèmes à plusieurs étapes en processus de raisonnement intermédiaire, générant la sortie finale même lorsque les entrées sont de différentes modalités telles que la vision et le langage. L’une des façons les plus populaires de réaliser Multimodal-CoT est de combiner l’entrée de plusieurs modalités en une seule modalité avant d’inciter les LLM à effectuer CoT. Cependant, cette méthode présente plusieurs inconvénients, notamment la perte d’informations significative qui se produit lors de la conversion de données d’une modalité à une autre. Une autre façon de réaliser le raisonnement CoT en multimodalité est de peaufiner de petits modèles de langage en combinant différentes caractéristiques de la vision et du langage.

Cependant, le principal problème de cette approche est que ces modèles de langage ont tendance à produire des motifs de raisonnement hallucinatoires qui affectent considérablement l’inférence des réponses. Pour atténuer l’impact de ces erreurs, les chercheurs d’Amazon ont proposé Multimodal-CoT, qui combine des caractéristiques visuelles dans un cadre d’entraînement découplé. Le cadre divise le processus de raisonnement en deux phases : la génération de rationnel et l’inférence de réponse. Le modèle produit des arguments plus convaincants en incluant les aspects visuels dans les deux étapes, ce qui contribue à créer des inférences de réponse plus précises. Ce travail est le premier du genre à étudier le raisonnement CoT dans différentes modalités. Sur le benchmark ScienceQA, la technique, telle que fournie par les chercheurs d’Amazon, démontre des performances de pointe, surpassant de 16% la précision de GPT-3.5 et dépassant les performances humaines.

Les étapes d’inférence et de génération de raisonnement de Multimodal-answer CoT utilisent la même architecture de modèle et diffèrent par le type d’entrée et de sortie. En prenant l’exemple d’un modèle vision-langage, le modèle reçoit des données à la fois des domaines visuel et linguistique lors de l’étape de génération de rationnel. Une fois le rationnel produit, il est ensuite ajouté à l’entrée linguistique initiale lors de l’étape d’inférence de réponse pour créer l’entrée linguistique pour l’étape suivante. Le modèle reçoit ensuite les données mises à jour et est entraîné à produire le résultat souhaité. Un modèle basé sur un transformateur qui effectue trois fonctions principales (encodage, interaction et décodage) constitue la base du modèle sous-jacent. Pour le dire simplement, le texte linguistique est fourni à un encodeur Transformer pour créer une représentation textuelle. Cette représentation textuelle est ensuite combinée à la représentation visuelle et alimentée dans le décodeur Transformer.

Afin d’évaluer l’efficacité de leur méthode, les chercheurs ont effectué de nombreux tests sur le benchmark ScienceQA, un ensemble de données multimodal de questions scientifiques à grande échelle contenant plus de 21 000 QCM multimodaux avec des réponses annotées. Les chercheurs ont conclu que leur approche surpasse de 16% le modèle GPT-3.5, état de l’art précédent, sur le benchmark. En résumé, les chercheurs d’Amazon ont étudié et résolu le problème d’obtention du raisonnement Multimodal-CoT en proposant un cadre à deux étapes en peaufinant les modèles de langage pour combiner les représentations de la vision et du langage afin d’exécuter Multimodal-CoT. Le modèle génère ainsi des rationnels informatifs pour faciliter l’inférence des réponses finales. Le référentiel GitHub du modèle est accessible ci-dessous.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Les chercheurs d'Amazon présentent la méthode 'HandsOff' qui élimine le besoin d'annoter manuellement les données d'image synthétique.

Le défi de l’annotation des données synthétiques L’utilisation de modèles d’apprentissage automatiq...

AI

Google lance MediaPipe pour Raspberry Pi avec un SDK Python facile à utiliser pour l'apprentissage automatique sur l'appareil

En réponse à la demande exponentielle croissante d’outils d’apprentissage automatique (ML) accessibles su...

AI

Techniques d'échantillonnage pratiques et comparaison, en Python

Je montais l'arbre de Noël avec ma femme. Nous sommes allés au sous-sol, avons pris l'arbre, l'avons apporté à l'étag...