Des chercheurs de l’Université de Toronto révèlent une redondance surprenante dans de gros ensembles de données sur les matériaux et la puissance des données informatives pour améliorer les performances de l’apprentissage automatique.

Des chercheurs de l'Université de Toronto dévoilent une redondance surprenante dans de vastes ensembles de données sur les matériaux et mettent en évidence le pouvoir des données informatives pour améliorer les performances de l'apprentissage automatique.

Avec l’avènement de l’IA, son utilisation se fait ressentir dans tous les domaines de notre vie. L’IA trouve son application dans tous les aspects de la vie. Mais l’IA a besoin de données pour l’entraînement. L’efficacité de l’IA repose fortement sur la disponibilité des données à des fins d’entraînement.

Traditionnellement, l’obtention d’une précision dans l’entraînement des modèles d’IA a été liée à la disponibilité de quantités substantielles de données. Pour relever ce défi dans ce domaine, il est nécessaire de naviguer dans un vaste espace de recherche potentiel. Par exemple, le projet Open Catalyst utilise plus de 200 millions de points de données liés aux matériaux de catalyseurs potentiels.

Les ressources de calcul requises pour l’analyse et le développement de modèles sur de tels ensembles de données posent un gros problème. Les ensembles de données Open Catalyst ont utilisé 16 000 jours de GPU pour analyser et développer des modèles. De tels budgets d’entraînement ne sont disponibles que pour certains chercheurs, limitant souvent le développement de modèles à des ensembles de données plus petits ou à une partie des données disponibles. Par conséquent, le développement de modèles est fréquemment restreint à des ensembles de données plus petits ou à une fraction des données disponibles.

Une étude menée par des chercheurs en ingénierie de l’Université de Toronto, publiée dans Nature Communications, suggère que l’idée selon laquelle les modèles d’apprentissage profond nécessitent beaucoup de données d’entraînement n’est pas toujours vraie.

Les chercheurs affirment que nous devons trouver un moyen d’identifier des ensembles de données plus petits pouvant être utilisés pour entraîner des modèles. Le Dr Kangming Li, chercheur postdoctoral à Hattrick-Simpers, a utilisé l’exemple d’un modèle qui prévoit les notes finales des étudiants et a souligné qu’il fonctionne mieux sur l’ensemble de données des étudiants canadiens sur lequel il est formé, mais il pourrait ne pas être en mesure de prédire les notes des étudiants d’autres pays.

Une solution possible consiste à trouver des sous-ensembles de données à l’intérieur d’ensembles de données incroyablement volumineux pour résoudre les problèmes soulevés. Ces sous-ensembles doivent contenir toute la diversité et l’information de l’ensemble de données original, mais être plus faciles à gérer lors du traitement.

Li a développé des méthodes pour localiser des sous-ensembles de données de haute qualité provenant d’ensembles de données sur les matériaux déjà rendus publics, tels que JARVIS, The Materials Project et Open Quantum Materials. L’objectif était d’obtenir une meilleure compréhension de la façon dont les propriétés des ensembles de données affectent les modèles qu’ils entraînent.

Pour créer son programme informatique, il a utilisé l’ensemble de données original et un sous-ensemble beaucoup plus petit avec 95% de données en moins. Le modèle entraîné sur 5% des données a produit des résultats comparables au modèle entraîné sur l’ensemble de données complet lors de la prédiction des propriétés des matériaux dans le domaine de l’ensemble de données. Selon cela, l’apprentissage automatique peut sûrement exclure jusqu’à 95% des données sans affecter de manière significative l’exactitude des prédictions dans la distribution. Les données redondantes se rapportent principalement au matériau surreprésenté.

Selon Li, les conclusions de l’étude fournissent un moyen d’évaluer à quel point un ensemble de données est redondant. Si l’ajout de plus de données n’améliore pas les performances du modèle, cela signifie qu’elles sont redondantes et ne fournissent pas aux modèles de nouvelles informations à apprendre.

L’étude confirme un corpus croissant de connaissances parmi les experts en IA dans plusieurs domaines : les modèles formés sur des ensembles de données relativement petits peuvent bien fonctionner, à condition que la qualité des données soit élevée.

En conclusion, l’importance de la richesse de l’information est soulignée davantage que le volume des données seul. La qualité de l’information devrait être privilégiée par rapport à la collecte d’énormes volumes de données.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

TikTok présente un outil d'étiquetage AI pour le contenu généré par l'IA

Ces dernières années, l’explosion du contenu généré par l’IA a ouvert de nouveaux horizons en matière d&#...

AI

Désinformation sur l'IA Pourquoi ça fonctionne et comment la repérer

Déterminer ce qui est réel en ligne devient de plus en plus difficile. Mais il existe des mesures que vous pouvez pre...

AI

Cet article sur l'IA explore les solutions d'apprentissage profond pour l'erreur autorégressive dans les opérateurs neuronaux pour la prévision spatio-temporelle avancée.

Cette recherche se penche sur un défi redoutable dans le domaine des opérateurs neuronaux auto-régressifs : la capaci...

AI

L'UNESCO soulève des préoccupations en matière de confidentialité concernant l'implantation de puces d'IA

Dans une révélation récente, les Nations Unies ont mis en garde contre les dangers potentiels de la neurotechnologie ...

Apprentissage automatique

Meta AI brise les barrières avec Voicebox un modèle d'IA générative sans précédent qui révolutionne le domaine de la synthèse vocale.

Les chercheurs en Meta-AI ont récemment réalisé une avancée significative dans l’IA générative pour la parole. ...

Actualités sur l'IA

ChatGPT dans la salle de classe

ChatGPT donne des maux de tête aux éducateurs et les oblige à réinventer la façon dont les salles de classe fonctionn...