Des chercheurs de l’Université de Toronto révèlent une redondance surprenante dans de gros ensembles de données sur les matériaux et la puissance des données informatives pour améliorer les performances de l’apprentissage automatique.
Des chercheurs de l'Université de Toronto dévoilent une redondance surprenante dans de vastes ensembles de données sur les matériaux et mettent en évidence le pouvoir des données informatives pour améliorer les performances de l'apprentissage automatique.
Avec l’avènement de l’IA, son utilisation se fait ressentir dans tous les domaines de notre vie. L’IA trouve son application dans tous les aspects de la vie. Mais l’IA a besoin de données pour l’entraînement. L’efficacité de l’IA repose fortement sur la disponibilité des données à des fins d’entraînement.
Traditionnellement, l’obtention d’une précision dans l’entraînement des modèles d’IA a été liée à la disponibilité de quantités substantielles de données. Pour relever ce défi dans ce domaine, il est nécessaire de naviguer dans un vaste espace de recherche potentiel. Par exemple, le projet Open Catalyst utilise plus de 200 millions de points de données liés aux matériaux de catalyseurs potentiels.
Les ressources de calcul requises pour l’analyse et le développement de modèles sur de tels ensembles de données posent un gros problème. Les ensembles de données Open Catalyst ont utilisé 16 000 jours de GPU pour analyser et développer des modèles. De tels budgets d’entraînement ne sont disponibles que pour certains chercheurs, limitant souvent le développement de modèles à des ensembles de données plus petits ou à une partie des données disponibles. Par conséquent, le développement de modèles est fréquemment restreint à des ensembles de données plus petits ou à une fraction des données disponibles.
- Une nouvelle recherche en IA dévoile SWIM-IR un vaste ensemble de données de recherche synthétiques multilingues avec 28 millions de paires d’entraînement réparties sur 33 langues.
- Microsoft dévoile des puces sur mesure Azure Révolutionner le cloud computing et les capacités de l’IA
- « Ce document sur l’IA du MIT présente une nouvelle approche de la manipulation robotique combler le fossé entre le 2D et le 3D avec des champs de caractéristiques distillées et des modèles de vision-langage. »
Une étude menée par des chercheurs en ingénierie de l’Université de Toronto, publiée dans Nature Communications, suggère que l’idée selon laquelle les modèles d’apprentissage profond nécessitent beaucoup de données d’entraînement n’est pas toujours vraie.
Les chercheurs affirment que nous devons trouver un moyen d’identifier des ensembles de données plus petits pouvant être utilisés pour entraîner des modèles. Le Dr Kangming Li, chercheur postdoctoral à Hattrick-Simpers, a utilisé l’exemple d’un modèle qui prévoit les notes finales des étudiants et a souligné qu’il fonctionne mieux sur l’ensemble de données des étudiants canadiens sur lequel il est formé, mais il pourrait ne pas être en mesure de prédire les notes des étudiants d’autres pays.
Une solution possible consiste à trouver des sous-ensembles de données à l’intérieur d’ensembles de données incroyablement volumineux pour résoudre les problèmes soulevés. Ces sous-ensembles doivent contenir toute la diversité et l’information de l’ensemble de données original, mais être plus faciles à gérer lors du traitement.
Li a développé des méthodes pour localiser des sous-ensembles de données de haute qualité provenant d’ensembles de données sur les matériaux déjà rendus publics, tels que JARVIS, The Materials Project et Open Quantum Materials. L’objectif était d’obtenir une meilleure compréhension de la façon dont les propriétés des ensembles de données affectent les modèles qu’ils entraînent.
Pour créer son programme informatique, il a utilisé l’ensemble de données original et un sous-ensemble beaucoup plus petit avec 95% de données en moins. Le modèle entraîné sur 5% des données a produit des résultats comparables au modèle entraîné sur l’ensemble de données complet lors de la prédiction des propriétés des matériaux dans le domaine de l’ensemble de données. Selon cela, l’apprentissage automatique peut sûrement exclure jusqu’à 95% des données sans affecter de manière significative l’exactitude des prédictions dans la distribution. Les données redondantes se rapportent principalement au matériau surreprésenté.
Selon Li, les conclusions de l’étude fournissent un moyen d’évaluer à quel point un ensemble de données est redondant. Si l’ajout de plus de données n’améliore pas les performances du modèle, cela signifie qu’elles sont redondantes et ne fournissent pas aux modèles de nouvelles informations à apprendre.
L’étude confirme un corpus croissant de connaissances parmi les experts en IA dans plusieurs domaines : les modèles formés sur des ensembles de données relativement petits peuvent bien fonctionner, à condition que la qualité des données soit élevée.
En conclusion, l’importance de la richesse de l’information est soulignée davantage que le volume des données seul. La qualité de l’information devrait être privilégiée par rapport à la collecte d’énormes volumes de données.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- ExLlamaV2 la bibliothèque la plus rapide pour exécuter des LLM
- Rencontrez GO To Any Thing (GOAT) un système de navigation universel capable de trouver n’importe quel objet spécifié de n’importe quelle manière – comme une image, un langage ou une catégorie – dans des environnements totalement inconnus.
- Données en un coup d’œil création de tableaux de bord dynamiques pour l’analyse des données
- Modèle FastAPI pour LLM SaaS Partie 1 – Authentification et téléchargement de fichiers
- Les chercheurs de l’Université de Zhejiang proposent UrbanGIRAFFE pour faire face à la synthèse d’images 3D conscientes et contrôlables pour des scènes urbaines complexes.
- Déballage de poids, de biais, de perte se concentrer sur l’apprentissage approfondi
- Qu’est-ce que le transfert d’apprentissage en apprentissage profond ?