Les chercheurs d’Apple et de CMU dévoilent le Never-ending UI Learner Révolutionner l’accessibilité des applications grâce à l’apprentissage machine continu
Les chercheurs d'Apple et de CMU révèlent le Never-ending UI Learner Révolutionner l'accessibilité des applications avec un apprentissage machine continuel
L’apprentissage automatique est de plus en plus intégré dans un large éventail de domaines. Son utilisation généralisée s’étend à toutes les industries, y compris le monde des interfaces utilisateur (IU), où il est crucial pour anticiper les données sémantiques. Cette application améliore non seulement l’accessibilité et simplifie les tests, mais elle aide également à automatiser les tâches liées à l’interface utilisateur, ce qui permet d’obtenir des applications plus rationalisées et efficaces.
Actuellement, de nombreux modèles se basent principalement sur des ensembles de données de captures d’écran statiques notées par des humains. Mais cette approche est coûteuse et expose des inclinaisons non anticipées vers des erreurs dans certaines activités. Étant donné qu’ils ne peuvent pas interagir avec l’élément de l’interface utilisateur dans l’application en direct pour confirmer leurs conclusions, les annotateurs humains doivent s’appuyer uniquement sur des indices visuels pour évaluer si un élément de l’interface utilisateur peut être touché à partir d’une capture d’écran.
Malgré les inconvénients de l’utilisation d’ensembles de données qui ne captent que des instantanés fixes des vues d’une application mobile, ils sont coûteux à utiliser et à maintenir. Cependant, en raison de leur abondance de données, ces ensembles de données continuent d’être inestimables pour la formation des réseaux neuronaux profonds (DNN).
- Rencontrez xVal Une Méthode Continue pour Encoder les Nombres dans les Modèles Linguistiques pour les Applications Scientifiques qui Utilise un Seul Symbole pour Représenter N’importe Quel Nombre
- Revue du générateur de voix AI de WellSaid Labs (octobre 2023)
- Les IA multilingues sont-elles réellement sûres ? Exposer les vulnérabilités des grands modèles de langage dans les langues à faibles ressources.
Par conséquent, les chercheurs d’Apple ont développé le système d’intelligence artificielle “Never-Ending UI Learner” en collaboration avec l’université de Carnegie Mellon. Ce système interagit en permanence avec des applications mobiles réelles, lui permettant d’améliorer continuellement sa compréhension des modèles de conception des interfaces utilisateur et des nouvelles tendances. Il télécharge automatiquement des applications d’app stores pour les appareils mobiles et les examine en détail pour trouver de nouveaux scenarii d’entraînement frais et difficiles.
Le “Never-Ending UI Learner” a exploré plus de 5 000 heures d’utilisation d’appareil jusqu’à présent, réalisant plus de 500 000 actions sur 6 000 applications. Grâce à cette interaction prolongée, trois modèles différents de vision par ordinateur seront formés : l’un pour prédire la possibilité de toucher, un autre pour prédire la possibilité de glisser et un troisième pour déterminer la similarité des écrans.
Il effectue de nombreuses interactions, telles que les touchers et les balayages, sur les composants de l’interface utilisateur de chaque application au cours de cette recherche. Les chercheurs soulignent qu’il classe les éléments de l’interface utilisateur en utilisant des heuristiques conçues, identifiant des caractéristiques telles que la possibilité de toucher un bouton ou le fait qu’une image puisse être déplacée.
À l’aide des données collectées, des modèles sont formés pour prédire la possibilité de toucher et de glisser des éléments d’interface utilisateur, ainsi que la similarité des écrans observés. La procédure de bout en bout ne nécessite plus d’exemples annotés par des humains, même si le processus peut commencer par un modèle formé sur des données annotées par des humains.
Les chercheurs ont souligné que cette méthode d’investigation active des applications présente un avantage. Elle aide la machine à identifier des circonstances difficiles que les ensembles de données annotés par des humains classiques pourraient négliger. Parfois, les gens peuvent ne pas remarquer tout ce qui peut être touché sur un écran car les images ne sont pas toujours très claires. Cependant, le système peut donner des touches sur les éléments et observer immédiatement ce qu’il se passe, fournissant des informations plus claires et meilleures.
Les chercheurs ont démontré comment les modèles formés sur ces données s’améliorent avec le temps, avec une prédiction de la possibilité de toucher atteignant une précision de 86% après cinq cycles d’entraînement.
Les chercheurs ont souligné que les applications axées sur les réparations d’accessiblité pourraient bénéficier de mises à jour plus fréquentes pour prendre en compte les changements subtils. En revanche, des intervalles plus longs permettant l’accumulation de changements d’interface utilisateur plus significatifs pourraient être préférables pour des tâches telles que la synthèse ou l’exploitation de motifs de conception. Trouver les meilleurs calendriers pour la rétro-ingénierie et les mises à jour nécessitera des recherches supplémentaires.
Ce travail met en évidence la possibilité d’un apprentissage sans fin, permettant aux systèmes de s’adapter et de progresser continuellement en intégrant de plus en plus de données. Alors que le système actuel se concentre sur la modélisation de simples sémantiques telles que la possibilité de toucher, Apple espère appliquer des principes similaires pour apprendre des représentations plus sophistiquées des interfaces utilisateur mobiles et des motifs d’interaction.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Google AI présente SANPO Un ensemble de données vidéo multi-attributs pour la compréhension des scènes extérieures humaines égocentriques.
- Cet article sur l’IA présente DSPy un modèle de programmation qui abstrait les pipelines de modèle de langage sous forme de graphes de transformation de texte.
- La compression des documents récupérés peut-elle améliorer les performances des modèles de langage ? Cet article sur l’IA présente RECOMP améliorer les LMs améliorés par la récupération avec la compression et l’augmentation sélective
- AutoGen est époustouflant 4 fonctionnalités qui font d’AutoGen le framework de pointe pour créer des agents d’IA.
- Performance des Apple M1 et M2 pour l’entrainement des modèles SSL
- Comment les Transformers peuvent-ils gérer des entrées plus longues ? Des chercheurs de la CMU et de Google dévoilent une nouvelle approche (FIRE) une interpolation fonctionnelle pour l’encodage de position relative.
- ReactJS pour l’IA et l’apprentissage automatique Une combinaison puissante