Des chercheurs de l’Université du Texas à Austin et de l’Université de Californie à Berkeley présentent Ambient Diffusion un cadre d’intelligence artificielle pour former/affiner des modèles de diffusion en ne disposant que de données corrompues en entrée.
Des chercheurs de l'Université du Texas à Austin et de l'Université de Californie à Berkeley présentent Ambient Diffusion, un cadre d'intelligence artificielle pour former des modèles de diffusion avec des données corrompues en entrée.
Pour apprendre des distributions à dimensions élevées et résoudre des problèmes inverses, les modèles de diffusion générative émergent en tant que cadres flexibles et puissants. Les modèles de diffusion textuelle conditionnelle tels que Dalle-2, Latent Diffusion et Imagen ont atteint des performances remarquables dans les domaines des images génériques grâce à plusieurs avancées récentes. Les modèles de diffusion ont récemment montré leur capacité à mémoriser des échantillons de leur ensemble d’entraînement. De plus, un adversaire ayant un accès simple aux requêtes du modèle peut obtenir des échantillons de l’ensemble de données, soulevant des préoccupations en matière de confidentialité, de sécurité et de droits d’auteur.
Les chercheurs présentent le premier cadre basé sur la diffusion capable d’apprendre une distribution inconnue à partir d’échantillons fortement contaminés. Ce problème se pose dans des contextes scientifiques où l’obtention d’échantillons propres est difficile ou coûteuse. Étant donné que les modèles génératifs ne sont jamais exposés à des données d’entraînement propres, ils sont moins susceptibles de mémoriser des échantillons d’entraînement particuliers. Le concept central est de corrompre davantage l’image originale pendant la diffusion en introduisant une distorsion de mesure supplémentaire, puis de défier le modèle pour prédire l’image corrompue originale à partir de l’autre image corrompue. L’enquête scientifique vérifie que l’approche génère des modèles capables d’acquérir l’espérance conditionnelle de l’image complète non corrompue à la lumière de cette corruption de mesure supplémentaire. L’inpainting et la compression de sens sont deux méthodes de corruption qui relèvent de cette généralisation. En les entraînant sur des références industrielles standard, les scientifiques montrent que leurs modèles peuvent apprendre la distribution même lorsque tous les échantillons d’entraînement manquent de 90% de leurs pixels. Ils démontrent également que les modèles de base peuvent être affinés sur de petits ensembles de données corrompus et que la distribution propre peut être apprise sans mémorisation de l’ensemble d’entraînement.
Caractéristiques notables
- Découvrez QLORA une approche de fine-tuning efficace qui réduit suffisamment l’utilisation de la mémoire pour permettre de fine-tuner un modèle de 65 milliards de paramètres sur une seule GPU de 48 Go tout en préservant les performances complètes de fine-tuning en 16 bits.
- Les LLM surpassent l’apprentissage par renforcement – Découvrez SPRING un cadre novateur de suggestion pour les LLM conçu pour permettre la planification et le raisonnement en chaîne dans le contexte.
- Des chercheurs de l’Université de technologie de Nanyang à Singapour ont introduit ResShift un nouveau modèle d’agrandissement d’image qui utilise le décalage résiduel et permet d’obtenir une super-résolution d’image plus rapidement que d’autres méthodes.
- Le concept central de cette recherche est de déformer davantage l’image et de forcer le modèle à prédire l’image déformée à partir de l’image.
- Leur approche entraîne des modèles de diffusion à l’aide de données d’entraînement corrompues sur des références populaires (CelebA, CIFAR-10 et AFHQ).
- Les chercheurs donnent un échantillonneur approximatif pour la distribution souhaitée p0(x0) basé sur les attentes conditionnelles apprises.
- Comme le montre la recherche, on peut apprendre une quantité considérable sur la distribution des photos originales, même si jusqu’à 90% des pixels sont absents. Ils obtiennent de meilleurs résultats que les meilleurs modèles précédents, tels que AmbientGAN, et les lignes de base naturelles.
- Ne voyant jamais une image propre pendant l’entraînement, les modèles sont montrés pour avoir des performances similaires ou meilleures que les modèles de diffusion de pointe pour traiter certains problèmes inverses. Alors que les lignes de base nécessitent de nombreuses étapes de diffusion, les modèles n’ont besoin que d’une seule étape de prédiction pour accomplir leur tâche.
- L’approche est utilisée pour affiner davantage les modèles de diffusion pré-entraînés standard dans la communauté de recherche. Il est possible d’apprendre des distributions à partir d’un petit nombre d’échantillons corrompus, et le processus de réglage fin ne prend que quelques heures sur un seul GPU.
- Certains échantillons corrompus sur un domaine différent peuvent également être utilisés pour affiner les modèles de base tels que l’IF de Deepfloyd.
- Pour quantifier l’effet d’apprentissage, les chercheurs comparent les modèles entraînés avec et sans corruption en montrant la distribution des similarités de premier rang par rapport aux échantillons d’entraînement.
- Les modèles entraînés sur des données suffisamment corrompues ne conservent aucune connaissance des données d’entraînement d’origine. Ils évaluent le compromis entre la corruption (qui détermine le niveau de mémorisation), les données d’entraînement et la qualité du générateur appris.
Limitations
- Le niveau de corruption est inversement proportionnel à la qualité du générateur. Le générateur est moins susceptible d’apprendre par mémorisation lorsque le niveau de corruption est augmenté, mais au détriment de la qualité. La définition précise de ce compromis reste un problème de recherche non résolu. Et pour estimer E[x0|xt] avec les modèles entraînés, les chercheurs ont essayé des algorithmes d’approximation de base dans ce travail.
- De plus, il est nécessaire d’établir des hypothèses sur la distribution des données pour garantir une assurance de confidentialité stricte concernant la protection de tout échantillon d’entraînement. Le matériel supplémentaire montre que l’oracle de restauration peut restaurer E précisément [x0|xt], bien que les chercheurs ne fournissent pas de technique.
- Cette méthode ne fonctionnera pas si les mesures contiennent également du bruit. L’utilisation de la régularisation SURE peut aider la recherche future à contourner cette restriction.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Les chercheurs de l’UC Berkeley présentent Video Prediction Rewards (VIPER) un algorithme qui exploite les modèles de prédiction vidéo pré-entraînés en tant que signaux de récompense sans action pour l’apprentissage par renforcement.
- DeepMind AI stimule considérablement l’exposition de YouTube Shorts en générant automatiquement des descriptions pour des millions de vidéos
- Cette recherche en IA explore les limites et les capacités des modèles de langage à grande échelle (LLM) Transformer, de manière empirique et théorique, sur des tâches compositionnelles.
- Exploiter l’apprentissage automatique pour le développement d’une stratégie marketing efficace
- Optimisation du régulateur PID Une approche de descente de gradient
- Entrée vocale et langage naturel pour votre application mobile en utilisant LLMs
- Les embeddings de phrases de l’IA, démystifiés