Nouvel outil aide les gens à choisir la bonne méthode pour évaluer les modèles d’IA.

New tool helps people choose the right method to evaluate AI models.

Sélectionner la bonne méthode donne aux utilisateurs une image plus précise de la façon dont leur modèle se comporte, de sorte qu’ils sont mieux équipés pour interpréter correctement ses prédictions.

New “saliency cards” provide concise summaries of machine-learning saliency methods in terms of 10 user-focused attributes.

Lorsque des modèles d’apprentissage automatique sont déployés dans des situations réelles, peut-être pour signaler une maladie potentielle dans des rayons X à un radiologiste pour examen, les utilisateurs humains doivent savoir quand faire confiance aux prévisions du modèle.

Cependant, les modèles d’apprentissage automatique sont si grands et complexes que même les scientifiques qui les conçoivent ne comprennent pas exactement comment les modèles font des prévisions. Ils créent donc des techniques connues sous le nom de méthodes de saillance qui cherchent à expliquer le comportement du modèle.

Avec de nouvelles méthodes publiées tout le temps, des chercheurs du MIT et d’IBM Research ont créé un outil pour aider les utilisateurs à choisir la meilleure méthode de saillance pour leur tâche particulière. Ils ont développé des cartes de saillance, qui fournissent une documentation normalisée sur la façon dont une méthode fonctionne, y compris ses forces et ses faiblesses et des explications pour aider les utilisateurs à l’interpréter correctement.

Ils espèrent que, armés de ces informations, les utilisateurs peuvent délibérément sélectionner une méthode de saillance appropriée à la fois pour le type de modèle d’apprentissage automatique qu’ils utilisent et la tâche que le modèle effectue, explique l’auteur principal Angie Boggust, étudiante diplômée en génie électrique et informatique au MIT et membre du groupe de visualisation du laboratoire d’informatique et d’intelligence artificielle (CSAIL) du MIT.

Des entretiens avec des chercheurs en intelligence artificielle et des experts d’autres domaines ont révélé que les cartes aident les gens à comparer rapidement côte à côte différentes méthodes et à choisir une technique adaptée à la tâche. Le choix de la bonne méthode donne aux utilisateurs une image plus précise de la façon dont leur modèle se comporte, de sorte qu’ils sont mieux équipés pour interpréter correctement ses prévisions.

« Les cartes de saillance sont conçues pour donner un résumé rapide et facilement compréhensible d’une méthode de saillance et pour la décomposer en attributs les plus critiques et centrés sur l’utilisateur. Elles sont vraiment conçues pour tout le monde, des chercheurs en apprentissage automatique aux utilisateurs non spécialistes qui essaient de comprendre quelle méthode utiliser et en choisir une pour la première fois », explique Boggust.

Outre Boggust, les co-auteurs de l’article sont Harini Suresh, postdoctorante au MIT ; Hendrik Strobelt, chercheur principal chez IBM Research ; John Guttag, professeur de génie informatique et électrique Dugald C. Jackson au MIT ; et l’auteur principal Arvind Satyanarayan, professeur agrégé d’informatique au MIT qui dirige le groupe de visualisation chez CSAIL. La recherche sera présentée à la conférence ACM sur l’équité, la responsabilité et la transparence.

Choisir la bonne méthode

Les chercheurs ont déjà évalué les méthodes de saillance en utilisant la notion de fidélité. Dans ce contexte, la fidélité capture la précision avec laquelle une méthode reflète le processus de prise de décision d’un modèle.

Cependant, la fidélité n’est pas une notion binaire, explique Boggust. Une méthode peut bien fonctionner dans un test de fidélité, mais échouer dans un autre. Avec autant de méthodes de saillance et autant d’évaluations possibles, les utilisateurs se contentent souvent d’une méthode car elle est populaire ou qu’un collègue l’a utilisée.

Cependant, choisir la « mauvaise » méthode peut avoir des conséquences graves. Par exemple, une méthode de saillance, connue sous le nom de gradients intégrés, compare l’importance des caractéristiques dans une image à une ligne de base sans signification. Les caractéristiques avec l’importance la plus élevée par rapport à la ligne de base sont les plus significatives pour la prédiction du modèle. Cette méthode utilise généralement des zéros pour la ligne de base, mais si elle est appliquée aux images, tous les zéros correspondent à la couleur noire.

« Elle vous dira que tous les pixels noirs de votre image ne sont pas importants, même s’ils le sont, parce qu’ils sont identiques à cette ligne de base sans signification. Cela pourrait être important si vous regardez des rayons X car le noir pourrait être significatif pour les cliniciens », explique Boggust.

Les cartes de saillance peuvent aider les utilisateurs à éviter ce type de problème en résumant la façon dont une méthode de saillance fonctionne en termes de 10 attributs centrés sur l’utilisateur. Les attributs capturent la manière dont la saillance est calculée, la relation entre la méthode de saillance et le modèle et la façon dont un utilisateur perçoit ses résultats.

Par exemple, un attribut est la dépendance hyperparamétrique, qui mesure la sensibilité de cette méthode de saillance aux paramètres spécifiés par l’utilisateur. Une carte de saillance pour les gradients intégrés décrirait ses paramètres et la façon dont ils affectent sa performance. Avec la carte, un utilisateur pourrait rapidement voir que les paramètres par défaut – une ligne de base de tous les zéros – pourraient générer des résultats trompeurs lors de l’évaluation des rayons X.

Les cartes pourraient également être utiles pour les scientifiques en exposant les lacunes dans l’espace de recherche. Par exemple, les chercheurs du MIT n’ont pas pu identifier une méthode de saillance qui était à la fois efficace sur le plan informatique et pouvait être appliquée à n’importe quel modèle d’apprentissage automatique.

“Pouvons-nous combler cet écart? Existe-t-il une méthode de saillance qui peut faire les deux choses? Ou peut-être que ces deux idées sont théoriquement en conflit l’une avec l’autre”, explique Boggust.

Montrer leurs cartes

Une fois qu’ils ont créé plusieurs cartes, l’équipe a mené une étude utilisateur auprès de huit experts du domaine, allant des informaticiens à un radiologue qui n’était pas familier avec l’apprentissage automatique. Au cours des entretiens, tous les participants ont déclaré que les descriptions concises les avaient aidés à hiérarchiser les attributs et à comparer les méthodes. Et même s’il n’était pas familier avec l’apprentissage automatique, le radiologue a pu comprendre les cartes et les utiliser pour participer au processus de choix d’une méthode de saillance, explique Boggust.

Les entretiens ont également révélé quelques surprises. Les chercheurs s’attendent souvent à ce que les cliniciens veuillent une méthode qui soit nette, c’est-à-dire qu’elle se concentre sur un objet particulier dans une image médicale. Mais le clinicien de cette étude préférait en fait un peu de bruit dans les images médicales pour les aider à atténuer l’incertitude.

“Au fur et à mesure que nous l’avons décomposé en ces différents attributs et que nous avons demandé aux gens, pas une seule personne n’avait les mêmes priorités que quiconque dans l’étude, même lorsqu’ils occupaient le même poste”, dit-elle.

À l’avenir, les chercheurs souhaitent explorer certains des attributs moins évalués et peut-être concevoir des méthodes de saillance spécifiques à la tâche. Ils souhaitent également développer une meilleure compréhension de la façon dont les gens perçoivent les sorties des méthodes de saillance, ce qui pourrait conduire à de meilleures visualisations. De plus, ils hébergent leur travail sur un référentiel public afin que d’autres puissent fournir des commentaires qui orienteront les travaux futurs, explique Boggust.

“Nous espérons vraiment que ce seront des documents vivants qui se développeront à mesure que de nouvelles méthodes de saillance et évaluations seront développées. En fin de compte, il ne s’agit que du début d’une conversation plus large sur ce que sont les attributs d’une méthode de saillance et comment ils jouent dans différentes tâches”, dit-elle.

La recherche a été soutenue, en partie, par le MIT-IBM Watson AI Lab, le Laboratoire de recherche de l’US Air Force et l’Accélérateur d’intelligence artificielle de l’US Air Force.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Recherche en profondeur Microsoft Bing s'intègre avec GPT-4

Microsoft s’apprête à révolutionner la recherche en ligne avec sa dernière fonctionnalité, intégrée à la techno...

AI

Création d'un filtre GenAI pour CV lors du hackathon DataRobot et AWS 2023

Cet article décrit une solution pour un logiciel de tri de CV génératif utilisant l'intelligence artificielle qui nou...

AI

Les chercheurs de Microsoft proposent la synthèse visuelle responsable à vocabulaire ouvert (ORES) avec le cadre d'intervention en deux étapes.

Les modèles de synthèse visuelle peuvent produire des images de plus en plus réalistes grâce aux progrès de la format...

AI

Découvrez Auto-GPT une application expérimentale open-source montrant la puissance des LLMs comme GPT-4 pour développer et gérer de manière autonome différents types de tâches.

Toran Bruce Richards, fondateur de Significant Gravitas, avec un groupe de développeurs, explore ce qui pourrait être...

AI

ChatGPT CLI Transformez votre interface de ligne de commande en ChatGPT

Une façon simple d'utiliser le modèle GPT dans votre invite de commande.