Libérer le potentiel de la condensation des ensembles de données SRe^2L atteint une précision record sur ImageNet-1K.
Exploiter pleinement le potentiel de la condensation des ensembles de données SRe^2L pour obtenir une précision record sur ImageNet-1K.
Ces dernières années, l’attention s’est portée sur les approches de compression et de distillation des données, révolutionnant la recherche en intelligence artificielle. Ces méthodes promettent de représenter efficacement des ensembles de données à grande échelle, permettant une formation plus rapide des modèles, un stockage rentable des données et la préservation des informations essentielles. Cependant, les solutions existantes ont du mal à compresser des ensembles de données haute résolution tels que ImageNet-1K en raison de coûts de calcul considérables.
Une équipe de recherche de l’Université Mohamed bin Zayed de l’IA et de l’Université Carnegie Mellon a dévoilé un cadre de condensation de jeu de données révolutionnaire appelé “Squeeze, Recover, and Relabel” (SRe^2L). Leur approche innovante condense des ensembles de données haute résolution et atteint une précision remarquable en conservant les informations essentielles.
Le principal défi de la distillation de jeu de données consiste à créer un algorithme de génération capable de produire efficacement des échantillons compressés et de garantir que les échantillons générés conservent les informations fondamentales de l’ensemble de données d’origine. Les approches existantes ont rencontré des difficultés à l’échelle des ensembles de données plus importants en raison de contraintes de calcul et de mémoire, entravant leur capacité à préserver les informations nécessaires.
- Des chercheurs de l’Université nationale de Singapour proposent Mind-Video un nouvel outil d’IA qui utilise des données d’IRMf du cerveau pour recréer des images vidéo.
- Des chercheurs de l’Université du Texas à Austin et de l’Université de Californie à Berkeley présentent Ambient Diffusion un cadre d’intelligence artificielle pour former/affiner des modèles de diffusion en ne disposant que de données corrompues en entrée.
- Découvrez QLORA une approche de fine-tuning efficace qui réduit suffisamment l’utilisation de la mémoire pour permettre de fine-tuner un modèle de 65 milliards de paramètres sur une seule GPU de 48 Go tout en préservant les performances complètes de fine-tuning en 16 bits.
Pour relever ces défis, le cadre SRe^2L adopte un processus d’apprentissage en trois étapes impliquant le serrage, la récupération et le reclassement. Les chercheurs ont d’abord formé un modèle pour capturer les informations cruciales de l’ensemble de données d’origine. Ensuite, ils effectuent un processus de récupération pour synthétiser les données cibles, puis les reclassement pour attribuer les vraies étiquettes aux données synthétiques.
Une innovation clé de SRe^2L réside dans la désolidarisation de l’optimisation bi-niveau du modèle et des données synthétiques pendant la formation. Cette approche unique garantit que l’extraction d’informations à partir des données d’origine reste indépendante du processus de génération de données. En évitant le besoin de mémoire supplémentaire et en empêchant les biais des données d’origine d’influencer les données générées, SRe^2L surmonte les limitations importantes auxquelles étaient confrontées les méthodes précédentes.
Pour valider leur approche, l’équipe de recherche a mené des expériences étendues de condensation de données sur deux ensembles de données : Tiny-ImageNet et ImageNet-1K. Les résultats étaient impressionnants, avec SRe^2L atteignant des précisions exceptionnelles de 42,5 % et 60,8 % sur Tiny-ImageNet complet et ImageNet-1K, respectivement. Ces résultats dépassent largement toutes les approches précédentes de pointe avec des marges substantielles de 14,5 % et 32,9 % tout en maintenant un temps d’entraînement et des coûts de mémoire raisonnables.
Un aspect distinctif de ce travail est l’engagement des chercheurs envers l’accessibilité. En exploitant les GPU NVIDIA largement disponibles, tels que les séries 3090, 4090 ou A100, SRe^2L devient accessible à un public plus large de chercheurs et de praticiens, favorisant la collaboration et accélérant les avancées dans le domaine.
À une époque où la demande d’ensembles de données haute résolution à grande échelle continue de croître, le cadre SRe^2L émerge comme une solution transformative aux défis de compression et de distillation des données. Sa capacité à compresser efficacement ImageNet-1K tout en préservant les informations critiques ouvre de nouvelles possibilités pour une formation rapide et efficace des modèles dans diverses applications d’IA. Avec son succès prouvé et sa mise en œuvre accessible, SRe^2L promet de redéfinir les frontières de la condensation de données, débloquant de nouvelles voies pour la recherche et le développement en IA.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Les LLM surpassent l’apprentissage par renforcement – Découvrez SPRING un cadre novateur de suggestion pour les LLM conçu pour permettre la planification et le raisonnement en chaîne dans le contexte.
- Des chercheurs de l’Université de technologie de Nanyang à Singapour ont introduit ResShift un nouveau modèle d’agrandissement d’image qui utilise le décalage résiduel et permet d’obtenir une super-résolution d’image plus rapidement que d’autres méthodes.
- Les chercheurs de l’UC Berkeley présentent Video Prediction Rewards (VIPER) un algorithme qui exploite les modèles de prédiction vidéo pré-entraînés en tant que signaux de récompense sans action pour l’apprentissage par renforcement.
- DeepMind AI stimule considérablement l’exposition de YouTube Shorts en générant automatiquement des descriptions pour des millions de vidéos
- Cette recherche en IA explore les limites et les capacités des modèles de langage à grande échelle (LLM) Transformer, de manière empirique et théorique, sur des tâches compositionnelles.
- Exploiter l’apprentissage automatique pour le développement d’une stratégie marketing efficace
- Optimisation du régulateur PID Une approche de descente de gradient