Découvrez StableSR une nouvelle approche d’intelligence artificielle pour la super-résolution exploitant la puissance des modèles de diffusion pré-entraînés.

Découvrez StableSR, une nouvelle approche d'intelligence artificielle pour la super-résolution.

Des progrès significatifs ont été observés dans le développement de modèles de diffusion pour diverses tâches de synthèse d’images dans le domaine de la vision par ordinateur. Des recherches antérieures ont illustré l’applicabilité de la diffusion préalable, intégrée dans des modèles de synthèse tels que Stable Diffusion, à une gamme de tâches de création de contenu en aval, y compris l’édition d’images et de vidéos.

Dans cet article, l’enquête s’étend au-delà de la création de contenu et explore les avantages potentiels de l’utilisation de priorités de diffusion pour les tâches de super-résolution (SR). La super-résolution, une tâche de vision de bas niveau, présente un défi supplémentaire en raison de son exigence en matière de fidélité d’image élevée, ce qui contraste avec la nature stochastique inhérente des modèles de diffusion.

Une solution courante à ce défi consiste à former un modèle de super-résolution à partir de zéro. Ces méthodes intègrent l’image à basse résolution (LR) en tant qu’entrée supplémentaire pour contraindre l’espace de sortie, dans le but de préserver la fidélité. Bien que ces approches aient obtenu des résultats louables, elles nécessitent souvent des ressources informatiques considérables pour former le modèle de diffusion. De plus, l’initiation de la formation du réseau à partir de zéro peut compromettre les priorités génératives capturées dans les modèles de synthèse, ce qui peut entraîner des performances réseau suboptimales.

En réponse à ces limitations, une approche alternative a été explorée. Cette approche alternative consiste à introduire des contraintes dans le processus de diffusion inverse d’un modèle de synthèse pré-entraîné. Ce paradigme élimine la nécessité d’une formation intensive du modèle tout en tirant parti des avantages de la diffusion préalable. Cependant, il convient de noter que la conception de ces contraintes suppose une connaissance préalable des dégradations de l’image, qui est généralement à la fois inconnue et complexe. Par conséquent, ces méthodes présentent une généralisabilité limitée.

Pour remédier aux limitations mentionnées, les chercheurs présentent StableSR, une approche conçue pour conserver les priorités de diffusion pré-entraînées sans nécessiter d’hypothèses explicites sur les dégradations de l’image. Un aperçu de la technique présentée est illustré ci-dessous.

Contrairement aux approches antérieures qui concatènent l’image à basse résolution (LR) avec les sorties intermédiaires, ce qui nécessite la formation d’un modèle de diffusion à partir de zéro, StableSR consiste à affiner un encodeur léger et conscient du temps et quelques couches de modulation de fonctionnalités spécifiquement adaptées aux tâches de super-résolution (SR).

L’encodeur intègre une couche d’incorporation temporelle pour générer des fonctionnalités conscientes du temps, permettant une modulation adaptative des fonctionnalités dans le modèle de diffusion à différentes itérations. Cela améliore non seulement l’efficacité de la formation, mais maintient également l’intégrité de la priorité générative. De plus, l’encodeur conscient du temps fournit un guidage adaptatif pendant le processus de restauration, avec un guidage plus fort aux premières itérations et un guidage plus faible aux étapes ultérieures, contribuant ainsi de manière significative à une meilleure performance.

Pour faire face à la nature aléatoire inhérente du modèle de diffusion et atténuer la perte d’information pendant le processus de codage de l’autoencodeur, StableSR applique un module d’enveloppement de fonctionnalités contrôlable. Ce module introduit un coefficient ajustable pour affiner les sorties du modèle de diffusion pendant le processus de décodage, en utilisant des fonctionnalités intermédiaires multi-échelles de l’encodeur de manière résiduelle. Le coefficient ajustable permet un compromis continu entre la fidélité et le réalisme, ce qui permet de prendre en compte une large gamme de niveaux de dégradation.

De plus, l’adaptation des modèles de diffusion aux tâches de super-résolution à des résolutions arbitraires a posé historiquement des défis. Pour surmonter cela, StableSR introduit une stratégie d’échantillonnage d’agrégation progressive. Cette approche divise l’image en patchs chevauchants et les fusionne en utilisant un noyau gaussien à chaque itération de diffusion. Le résultat est une transition plus fluide aux frontières, garantissant une sortie plus cohérente.

Certaines sorties d’échantillons de StableSR présentées dans l’article original par rapport aux approches de pointe sont rapportées dans la figure ci-dessous.

En résumé, StableSR offre une solution unique pour adapter les prédictions génératives aux défis de la super-résolution d’images du monde réel. Cette approche exploite des modèles de diffusion pré-entraînés sans faire d’hypothèses explicites sur les dégradations, en abordant les problèmes de fidélité et de résolution arbitraire grâce à l’incorporation de l’encodeur sensible au temps, du module d’enveloppe de caractéristiques contrôlable et de la stratégie d’échantillonnage d’agrégation progressive. StableSR sert de référence solide, inspirant des recherches futures dans l’application de prédictions de diffusion pour les tâches de restauration.

Si vous êtes intéressé et souhaitez en savoir plus, n’hésitez pas à consulter les liens cités ci-dessous.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Les ventes de voitures neuves décollent alors que la pénurie de puces électroniques diminue.

General Motors, Toyota et d'autres constructeurs automobiles ont vendu plus de camions et de véhicules utilitaires sp...

AI

Améliorer la sécurité des données et la collaboration AWS Clean Rooms présente des fonctionnalités d'apprentissage automatique et de confidentialité différentielle

Amazon Web Services (AWS) a introduit une nouvelle mise à jour de son service sécurisé de partage de données, Clean R...

AI

Le modèle de base Falcon 180B de TII est désormais disponible via Amazon SageMaker JumpStart.

Aujourd'hui, nous sommes ravis d'annoncer que le modèle de base Falcon 180B développé par le Technology Innovation In...

AI

Les chercheurs de l'Université Sorbonne présentent UnIVAL Un modèle d'IA unifié pour les tâches d'image, de vidéo, d'audio et de langage.

Un grand pas en avant dans la création de modèles généralistes est l’apparition des Modèles de Langage de Grand...

AI

Gemini de Google n'est pas le modèle d'IA génératif que nous attendions.

Le vice-président des produits DeepMind, Eli Collins, affirme que Gemini Ultra peut comprendre des informations nuanc...

AI

Le jury constate que l'App Store de Google a enfreint les lois anti-monopole.

Dans une décision historique, Epic Games a remporté son procès contre le géant de la recherche.