MIT dévoile un outil révolutionnaire d’IA Amélioration de l’interprétation des graphiques et de l’accessibilité grâce à des légendes adaptatives et détaillées pour les utilisateurs de toutes capacités.
MIT unveils revolutionary AI tool Improved graph interpretation and accessibility with adaptive and detailed captions for users of all abilities.
Dans une avancée significative visant à améliorer l’accessibilité et la compréhension des graphiques complexes, une équipe de chercheurs du MIT a créé un ensemble de données révolutionnaire appelé VisText. L’ensemble de données vise à révolutionner les systèmes de légendage automatique des graphiques en formant des modèles d’apprentissage automatique à générer des légendes précises et sémantiquement riches décrivant avec précision les tendances des données et les motifs complexes.
Le légendage des graphiques de manière efficace est un processus intensif en main-d’œuvre qui nécessite souvent des améliorations en fournissant des informations contextuelles supplémentaires. Les techniques de légendage automatique ont du mal à incorporer des fonctionnalités cognitives qui améliorent la compréhension. Cependant, les chercheurs du MIT ont découvert que leurs modèles d’apprentissage automatique, formés à l’aide de l’ensemble de données VisText, produisaient systématiquement des légendes supérieures à celles des autres systèmes de légendage automatique. Les légendes générées étaient précises et variées en termes de complexité et de contenu, répondant aux besoins divers des différents utilisateurs.
L’inspiration pour VisText est issue de travaux antérieurs au sein du groupe de visualisation du MIT, qui a exploré les éléments clés d’une bonne légende de graphique. Leurs recherches ont révélé que les utilisateurs voyants et les personnes malvoyantes ou atteintes de basse vision présentaient des préférences variables en matière de complexité du contenu sémantique d’une légende. S’appuyant sur cette analyse centrée sur l’humain, les chercheurs ont construit l’ensemble de données VisText, comprenant plus de 12 000 graphiques représentés sous forme de tableaux de données, d’images, de graphes de scène et de légendes correspondantes.
- Adapter les projets LLM existants pour utiliser LangChain
- Interdit d’accès aux supermarchés par reconnaissance faciale
- L’IA part dans l’espace ! La NASA va déployer un chatbot similaire à ChatGPT pour la communication des vaisseaux spatiaux.
Le développement de systèmes de légendage automatique efficaces présentait de nombreux défis. Les méthodes d’apprentissage automatique existantes abordaient le légendage des graphiques de manière similaire au légendage des images, mais l’interprétation des images naturelles diffère considérablement de la lecture des graphiques. Les techniques alternatives négligeaient complètement le contenu visuel et se fiaient uniquement aux tableaux de données sous-jacents, souvent indisponibles après la publication du graphique. Pour surmonter ces limitations, les chercheurs ont utilisé des graphes de scène extraits des images des graphiques comme représentation. Les graphes de scène offraient l’avantage de contenir des informations complètes tout en étant plus accessibles et compatibles avec les modèles de langage modernes de grande taille.
Les chercheurs ont formé cinq modèles d’apprentissage automatique pour le légendage automatique en utilisant VisText, explorant différentes représentations, y compris les images, les tableaux de données et les graphes de scène. Ils ont découvert que les modèles formés avec des graphes de scène se comportaient aussi bien, voire mieux, que ceux formés avec des tableaux de données, ce qui suggère le potentiel des graphes de scène comme représentation plus réaliste. De plus, en formant séparément les modèles avec des légendes de bas niveau et de haut niveau, les chercheurs ont permis aux modèles de s’adapter à la complexité des légendes générées.
Pour garantir l’exactitude et la fiabilité de leurs modèles, les chercheurs ont effectué une analyse qualitative détaillée, en classant les erreurs courantes commises par leur méthode la plus performante. Cet examen était essentiel pour comprendre les nuances subtiles et les limites des modèles, en mettant en lumière les considérations éthiques entourant le développement de systèmes de légendage automatique. Bien que les modèles génératifs d’apprentissage automatique fournissent un outil efficace pour le légendage automatique, des erreurs peuvent être diffusées si les légendes sont générées de manière incorrecte. Pour faire face à cette préoccupation, les chercheurs ont proposé de fournir les systèmes de légendage automatique en tant qu’outils d’auteur, permettant aux utilisateurs de modifier et de vérifier les légendes, atténuant ainsi les erreurs potentielles et les préoccupations éthiques.
À l’avenir, l’équipe s’engage à affiner ses modèles pour réduire les erreurs courantes. Ils ont pour objectif d’étendre l’ensemble de données VisText en incluant des graphiques plus diversifiés et complexes, tels que ceux avec des barres empilées ou plusieurs lignes. De plus, ils cherchent à obtenir des informations sur le processus d’apprentissage des modèles de légendage automatique afin d’approfondir leur compréhension des données de graphique.
Le développement de l’ensemble de données VisText représente une percée significative dans le légendage automatique des graphiques. Avec des avancées et des recherches continues, les systèmes de légendage automatique alimentés par l’apprentissage automatique promettent de révolutionner l’accessibilité et la compréhension des graphiques, rendant les informations vitales plus inclusives et accessibles aux personnes atteintes de handicaps visuels.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Rencontrez ChatHN un chat en temps réel alimenté par l’IA sur le flux de Hacker News
- Meilleurs générateurs d’images d’IA (juillet 2023)
- Découvrez le nouveau modèle Zeroscope v2 un modèle gratuit de conversion de texte en vidéo qui fonctionne sur les cartes graphiques modernes.
- Recommander et filtrer dynamiquement les éléments en fonction du contexte de l’utilisateur dans Amazon Personalize
- Émuler comment les krills nagent pour construire une plateforme robotique pour la navigation océanique
- Capteur sans batterie, activé par l’IA, semblable à un papier pour la surveillance globale des plaies
- Dropbox dévoile des outils révolutionnaires alimentés par l’IA une nouvelle ère de productivité et de collaboration