Mettez-moi rapidement au centre Subject-Diffusion est un modèle d’IA qui peut réaliser une génération de texte vers image personnalisée dans un domaine ouvert.

Subject-Diffusion est un modèle d'IA qui génère rapidement des images personnalisées à partir de texte dans n'importe quel domaine.

Les modèles de texte vers image ont été la pierre angulaire de chaque discussion sur l’IA de l’année dernière. Les progrès dans ce domaine ont été assez rapides et nous disposons maintenant de modèles de texte vers image impressionnants. L’IA générative entre dans une nouvelle phase.

Les modèles de diffusion ont été les principaux contributeurs à cette avancée. Ils se sont imposés comme une classe puissante de modèles génératifs. Ces modèles sont conçus pour générer des images de haute qualité en débruitant lentement l’entrée jusqu’à obtenir une image souhaitée. Les modèles de diffusion peuvent capturer des motifs de données cachés et générer des échantillons diversifiés et réalistes.

L’avancée rapide des modèles génératifs basés sur la diffusion a révolutionné les méthodes de génération de texte vers image. Vous pouvez demander une image, quoi que vous puissiez imaginer, la décrire, et les modèles peuvent la générer pour vous avec une grande précision. À mesure qu’ils progressent, il devient difficile de comprendre quelles images sont générées par l’IA.

Cependant, il y a un problème ici. Ces modèles reposent uniquement sur des descriptions textuelles pour générer des images. Vous ne pouvez que “décrire” ce que vous voulez voir. De plus, ils ne sont pas faciles à personnaliser car cela nécessiterait un ajustement fin dans la plupart des cas.

Imaginez que vous aménagez votre maison et que vous travaillez avec un architecte. L’architecte ne peut vous proposer que des designs qu’il a réalisés pour ses clients précédents, et lorsque vous essayez de personnaliser une partie du design, il l’ignore tout simplement et vous propose un autre style déjà utilisé. Cela ne semble pas très plaisant, n’est-ce pas ? C’est peut-être l’expérience que vous obtiendrez avec les modèles de texte vers image si vous recherchez une personnalisation.

Heureusement, des tentatives ont été faites pour surmonter ces limitations. Les chercheurs ont exploré l’intégration de descriptions textuelles avec des images de référence pour parvenir à une génération d’images plus personnalisée. Alors que certaines méthodes nécessitent un ajustement fin sur des images de référence spécifiques, d’autres réentraînent les modèles de base sur des ensembles de données personnalisés, ce qui peut entraîner des inconvénients en termes de fidélité et de généralisation. De plus, la plupart des algorithmes existants sont adaptés à des domaines spécifiques, ce qui laisse des lacunes en matière de génération de concepts multiples, d’ajustement fin au moment du test et de capacité de zéro-shot dans un domaine ouvert.

Ainsi, aujourd’hui, nous découvrons une nouvelle approche qui nous rapproche de la personnalisation à domaine ouvert – il est temps de rencontrer Subject-Diffusion.

SubjectDiffusion peut générer des images pilotées par le sujet avec une grande fidélité. Source : https://arxiv.org/pdf/2307.11410.pdf

Subject-Diffusion est un cadre innovant de génération d’images à texte personnalisé à domaine ouvert. Il utilise une seule image de référence et élimine le besoin d’un ajustement fin au moment du test. Pour construire un ensemble de données à grande échelle pour la génération d’images personnalisées, il s’appuie sur un outil d’étiquetage automatique des données, ce qui donne le Dataset Subject-Diffusion (SDD) avec 76 millions d’images impressionnantes et 222 millions d’entités.

Subject-Diffusion a trois composantes principales : le contrôle de l’emplacement, le contrôle de l’image de référence à grain fin et le contrôle de l’attention. Le contrôle de l’emplacement consiste à ajouter des images masques des sujets principaux pendant le processus d’injection de bruit. Le contrôle de l’image de référence à grain fin utilise un module d’information texte-image combiné pour améliorer l’intégration des deux granularités. Pour permettre la génération fluide de plusieurs sujets, le contrôle de l’attention est introduit pendant l’entraînement.

Aperçu de SubjectDiffusion. Source : https://arxiv.org/pdf/2307.11410.pdf

Subject-Diffusion atteint une fidélité et une généralisation impressionnantes, capable de générer des images personnalisées uniques, multiples et à sujet humain avec des modifications de forme, de posture, de fond et de style basées sur une seule image de référence par sujet. Le modèle permet également une interpolation fluide entre les images personnalisées et les descriptions textuelles grâce à un processus de débruitage spécialement conçu. Des comparaisons quantitatives montrent que Subject-Diffusion surpasse ou égale d’autres méthodes de pointe, avec ou sans ajustement fin au moment du test, sur divers ensembles de données de référence.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

La race ne peut pas être utilisée pour prédire les maladies cardiaques.

L'American Heart Association supprime la race en tant que facteur de prédiction des maladies cardiaques dans un algor...

AI

Les 10 meilleures GPU que vous devez explorer en 2024

Introduction À l’ère de l’intelligence artificielle (IA), de l’apprentissage automatique (ML) et de...

AI

L'IA peut-elle surmonter le biais de confirmation humain ?

Du livre Réfléchir, vite et lentement du lauréat du prix Nobel Daniel Kahneman, nous savons tous que les cerveaux hum...

AI

Le biosenseur offre une rétroaction en temps réel pour la dialyse

Des chercheurs de l'Université de Technologie de Shahrood en Iran ont mis au point un nouveau biosenseur pour accélér...

AI

Découvrez WavJourney un cadre AI pour la création audio compositionnelle avec de grands modèles de langage

Le domaine émergent de l’intelligence artificielle (IA) multimodale fusionne des données visuelles, auditives e...

AI

Mettez-moi rapidement au centre Subject-Diffusion est un modèle d'IA qui peut réaliser une génération de texte vers image personnalisée dans un domaine ouvert.

Les modèles de texte vers image ont été la pierre angulaire de chaque discussion sur l’IA de l’année dern...