Mettez-moi rapidement au centre Subject-Diffusion est un modèle d’IA qui peut réaliser une génération de texte vers image personnalisée dans un domaine ouvert.

Subject-Diffusion est un modèle d'IA qui génère rapidement des images personnalisées à partir de texte dans n'importe quel domaine.

Les modèles de texte vers image ont été la pierre angulaire de chaque discussion sur l’IA de l’année dernière. Les progrès dans ce domaine ont été assez rapides et nous disposons maintenant de modèles de texte vers image impressionnants. L’IA générative entre dans une nouvelle phase.

Les modèles de diffusion ont été les principaux contributeurs à cette avancée. Ils se sont imposés comme une classe puissante de modèles génératifs. Ces modèles sont conçus pour générer des images de haute qualité en débruitant lentement l’entrée jusqu’à obtenir une image souhaitée. Les modèles de diffusion peuvent capturer des motifs de données cachés et générer des échantillons diversifiés et réalistes.

L’avancée rapide des modèles génératifs basés sur la diffusion a révolutionné les méthodes de génération de texte vers image. Vous pouvez demander une image, quoi que vous puissiez imaginer, la décrire, et les modèles peuvent la générer pour vous avec une grande précision. À mesure qu’ils progressent, il devient difficile de comprendre quelles images sont générées par l’IA.

Cependant, il y a un problème ici. Ces modèles reposent uniquement sur des descriptions textuelles pour générer des images. Vous ne pouvez que “décrire” ce que vous voulez voir. De plus, ils ne sont pas faciles à personnaliser car cela nécessiterait un ajustement fin dans la plupart des cas.

Imaginez que vous aménagez votre maison et que vous travaillez avec un architecte. L’architecte ne peut vous proposer que des designs qu’il a réalisés pour ses clients précédents, et lorsque vous essayez de personnaliser une partie du design, il l’ignore tout simplement et vous propose un autre style déjà utilisé. Cela ne semble pas très plaisant, n’est-ce pas ? C’est peut-être l’expérience que vous obtiendrez avec les modèles de texte vers image si vous recherchez une personnalisation.

Heureusement, des tentatives ont été faites pour surmonter ces limitations. Les chercheurs ont exploré l’intégration de descriptions textuelles avec des images de référence pour parvenir à une génération d’images plus personnalisée. Alors que certaines méthodes nécessitent un ajustement fin sur des images de référence spécifiques, d’autres réentraînent les modèles de base sur des ensembles de données personnalisés, ce qui peut entraîner des inconvénients en termes de fidélité et de généralisation. De plus, la plupart des algorithmes existants sont adaptés à des domaines spécifiques, ce qui laisse des lacunes en matière de génération de concepts multiples, d’ajustement fin au moment du test et de capacité de zéro-shot dans un domaine ouvert.

Ainsi, aujourd’hui, nous découvrons une nouvelle approche qui nous rapproche de la personnalisation à domaine ouvert – il est temps de rencontrer Subject-Diffusion.

SubjectDiffusion peut générer des images pilotées par le sujet avec une grande fidélité. Source : https://arxiv.org/pdf/2307.11410.pdf

Subject-Diffusion est un cadre innovant de génération d’images à texte personnalisé à domaine ouvert. Il utilise une seule image de référence et élimine le besoin d’un ajustement fin au moment du test. Pour construire un ensemble de données à grande échelle pour la génération d’images personnalisées, il s’appuie sur un outil d’étiquetage automatique des données, ce qui donne le Dataset Subject-Diffusion (SDD) avec 76 millions d’images impressionnantes et 222 millions d’entités.

Subject-Diffusion a trois composantes principales : le contrôle de l’emplacement, le contrôle de l’image de référence à grain fin et le contrôle de l’attention. Le contrôle de l’emplacement consiste à ajouter des images masques des sujets principaux pendant le processus d’injection de bruit. Le contrôle de l’image de référence à grain fin utilise un module d’information texte-image combiné pour améliorer l’intégration des deux granularités. Pour permettre la génération fluide de plusieurs sujets, le contrôle de l’attention est introduit pendant l’entraînement.

Aperçu de SubjectDiffusion. Source : https://arxiv.org/pdf/2307.11410.pdf

Subject-Diffusion atteint une fidélité et une généralisation impressionnantes, capable de générer des images personnalisées uniques, multiples et à sujet humain avec des modifications de forme, de posture, de fond et de style basées sur une seule image de référence par sujet. Le modèle permet également une interpolation fluide entre les images personnalisées et les descriptions textuelles grâce à un processus de débruitage spécialement conçu. Des comparaisons quantitatives montrent que Subject-Diffusion surpasse ou égale d’autres méthodes de pointe, avec ou sans ajustement fin au moment du test, sur divers ensembles de données de référence.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Découvrez PyGraft un outil d'IA basé sur Python, open source, qui génère des schémas et des graphes de connaissances hautement personnalisés et agnostiques du domaine.

Une méthode de plus en plus populaire pour représenter des données dans une structure de graphe est l’utilisati...

AI

Comment l'apprentissage automatique va révolutionner l'industrie des données de localisation

L'industrie des données de localisation est en pleine croissance mais encore à ses débuts techniques. La plupart des ...

AI

Test de Turing, Chambre Chinoise et Modèles de Langage Étendus

Le Test de Turing est une idée classique dans le domaine de l'IA. À l'origine appelé le jeu de l'imitation, Alan Turi...

Apprentissage automatique

Des scientifiques améliorent la détection du delirium en utilisant l'IA et des EEG à réponse rapide.

Détecter le délire n’est pas facile, mais cela peut avoir un grand bénéfice : accélérer les soins essentiels au...

AI

Introduction à l'apprentissage machine Exploration de ses nombreuses formes

De nos jours, l'apprentissage automatique est présent partout, n'est-ce pas ? Si vous êtes ici, vous devez sûrement ê...