Les chercheurs d’Apple et de CMU dévoilent le Never-ending UI Learner Révolutionner l’accessibilité des applications grâce à l’apprentissage machine continu

Les chercheurs d'Apple et de CMU révèlent le Never-ending UI Learner Révolutionner l'accessibilité des applications avec un apprentissage machine continuel

L’apprentissage automatique est de plus en plus intégré dans un large éventail de domaines. Son utilisation généralisée s’étend à toutes les industries, y compris le monde des interfaces utilisateur (IU), où il est crucial pour anticiper les données sémantiques. Cette application améliore non seulement l’accessibilité et simplifie les tests, mais elle aide également à automatiser les tâches liées à l’interface utilisateur, ce qui permet d’obtenir des applications plus rationalisées et efficaces.

Actuellement, de nombreux modèles se basent principalement sur des ensembles de données de captures d’écran statiques notées par des humains. Mais cette approche est coûteuse et expose des inclinaisons non anticipées vers des erreurs dans certaines activités. Étant donné qu’ils ne peuvent pas interagir avec l’élément de l’interface utilisateur dans l’application en direct pour confirmer leurs conclusions, les annotateurs humains doivent s’appuyer uniquement sur des indices visuels pour évaluer si un élément de l’interface utilisateur peut être touché à partir d’une capture d’écran.

Malgré les inconvénients de l’utilisation d’ensembles de données qui ne captent que des instantanés fixes des vues d’une application mobile, ils sont coûteux à utiliser et à maintenir. Cependant, en raison de leur abondance de données, ces ensembles de données continuent d’être inestimables pour la formation des réseaux neuronaux profonds (DNN).

Par conséquent, les chercheurs d’Apple ont développé le système d’intelligence artificielle “Never-Ending UI Learner” en collaboration avec l’université de Carnegie Mellon. Ce système interagit en permanence avec des applications mobiles réelles, lui permettant d’améliorer continuellement sa compréhension des modèles de conception des interfaces utilisateur et des nouvelles tendances. Il télécharge automatiquement des applications d’app stores pour les appareils mobiles et les examine en détail pour trouver de nouveaux scenarii d’entraînement frais et difficiles.

Le “Never-Ending UI Learner” a exploré plus de 5 000 heures d’utilisation d’appareil jusqu’à présent, réalisant plus de 500 000 actions sur 6 000 applications. Grâce à cette interaction prolongée, trois modèles différents de vision par ordinateur seront formés : l’un pour prédire la possibilité de toucher, un autre pour prédire la possibilité de glisser et un troisième pour déterminer la similarité des écrans.

Il effectue de nombreuses interactions, telles que les touchers et les balayages, sur les composants de l’interface utilisateur de chaque application au cours de cette recherche. Les chercheurs soulignent qu’il classe les éléments de l’interface utilisateur en utilisant des heuristiques conçues, identifiant des caractéristiques telles que la possibilité de toucher un bouton ou le fait qu’une image puisse être déplacée.

À l’aide des données collectées, des modèles sont formés pour prédire la possibilité de toucher et de glisser des éléments d’interface utilisateur, ainsi que la similarité des écrans observés. La procédure de bout en bout ne nécessite plus d’exemples annotés par des humains, même si le processus peut commencer par un modèle formé sur des données annotées par des humains.

Les chercheurs ont souligné que cette méthode d’investigation active des applications présente un avantage. Elle aide la machine à identifier des circonstances difficiles que les ensembles de données annotés par des humains classiques pourraient négliger. Parfois, les gens peuvent ne pas remarquer tout ce qui peut être touché sur un écran car les images ne sont pas toujours très claires. Cependant, le système peut donner des touches sur les éléments et observer immédiatement ce qu’il se passe, fournissant des informations plus claires et meilleures.

Les chercheurs ont démontré comment les modèles formés sur ces données s’améliorent avec le temps, avec une prédiction de la possibilité de toucher atteignant une précision de 86% après cinq cycles d’entraînement.

Les chercheurs ont souligné que les applications axées sur les réparations d’accessiblité pourraient bénéficier de mises à jour plus fréquentes pour prendre en compte les changements subtils. En revanche, des intervalles plus longs permettant l’accumulation de changements d’interface utilisateur plus significatifs pourraient être préférables pour des tâches telles que la synthèse ou l’exploitation de motifs de conception. Trouver les meilleurs calendriers pour la rétro-ingénierie et les mises à jour nécessitera des recherches supplémentaires.

Ce travail met en évidence la possibilité d’un apprentissage sans fin, permettant aux systèmes de s’adapter et de progresser continuellement en intégrant de plus en plus de données. Alors que le système actuel se concentre sur la modélisation de simples sémantiques telles que la possibilité de toucher, Apple espère appliquer des principes similaires pour apprendre des représentations plus sophistiquées des interfaces utilisateur mobiles et des motifs d’interaction.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Tout sur les bases de données vectorielles - Leur importance, les embeddings vectoriels et les principales bases de données vectorielles pour les grands modèles de langage (LLMs)

Les grands modèles de langage ont montré une croissance immense et des avancées récentes. Le domaine de l’intel...

AI

Créez des résumés d'enregistrements à l'aide de l'IA générative avec Amazon Bedrock et Amazon Transcribe

Les notes de réunion sont une partie cruciale de la collaboration, mais elles sont souvent négligées. Entre la direct...

AI

Des chercheurs du MIT combinent l'apprentissage profond et la physique pour réparer les images d'IRM corrompues par le mouvement

Le défi ne se limite pas à un simple JPEG flou. La correction des artefacts de mouvement en imagerie médicale nécessi...

AI

Que pouvez-vous faire lorsque l'IA ment à votre sujet?

Les personnes ont peu de protection ou de recours lorsque la technologie crée et propage de fausses informations à le...

AI

3 Questions Affiner la perception des robots et la cartographie

Luca Carlone et Jonathan How du MIT LIDS discutent de la façon dont les futurs robots pourraient percevoir et interag...