Des chercheurs de l’Université nationale de Singapour proposent Mind-Video un nouvel outil d’IA qui utilise des données d’IRMf du cerveau pour recréer des images vidéo.

Des chercheurs de l'Université nationale de Singapour créent Mind-Video, un outil d'IA utilisant des données d'IRMf pour recréer des vidéos.

Comprendre la cognition humaine a rendu la reconstruction de la vision humaine à partir des processus cérébraux intrigante, surtout lorsqu’on utilise des technologies non invasives comme l’imagerie par résonance magnétique fonctionnelle (IRMf). Il y a eu beaucoup de progrès dans la récupération d’images fixes à partir d’enregistrements cérébraux non invasifs, mais pas beaucoup en ce qui concerne les expériences visuelles continues comme les films.

Bien que les technologies non invasives ne collectent que peu de données puisqu’elles sont moins robustes et plus vulnérables aux influences extérieures comme le bruit. De plus, la collecte de données de neuro-imagerie est un processus long et coûteux.

Des progrès ont été réalisés malgré ces défis, notamment dans l’apprentissage de caractéristiques utiles de l’IRMf avec des paires d’annotations IRMf clairsemées. Contrairement aux images statiques, l’expérience visuelle humaine est un flux continu et changeant de paysages, de mouvements et d’objets. Parce que l’IRMf mesure les signaux dépendant du niveau d’oxygénation du sang (BOLD) et prend des images de l’activité cérébrale toutes les quelques secondes, il peut être difficile de restaurer l’expérience visuelle dynamique. Chaque lecture de l’IRMf peut être considérée comme une “moyenne” de l’activité cérébrale pendant l’analyse. Au contraire, la fréquence d’images d’une vidéo standard est de 30 images par seconde (IPS). Dans le temps qu’il faut pour acquérir une image IRMf, 60 images vidéo peuvent être affichées comme stimuli visuels, exposant potentiellement le sujet à une large gamme d’objets, d’actions et de paramètres. Par conséquent, récupérer des films à une fréquence d’images significativement plus élevée que la résolution temporelle de l’IRMf via le décodage de l’IRMf est un défi.

Des chercheurs de l’Université nationale de Singapour et de l’Université chinoise de Hong Kong ont introduit MinD-Video, un pipeline modulaire de décodage cérébral comprenant un encodeur IRMf et un modèle de diffusion stable augmenté, formés indépendamment puis affinés ensemble. Le modèle proposé prend des données du cerveau par étapes, élargissant ses connaissances du domaine sémantique.

Initialement, l’équipe entraîne des caractéristiques visuelles IRMf génériques à l’aide d’un apprentissage non supervisé à grande échelle et d’une modélisation cérébrale masquée. Ensuite, ils utilisent la multimodalité de l’ensemble de données annoté pour extraire les caractéristiques liées à la sémantique et utilisent l’apprentissage contrastif pour former l’encodeur IRMf dans l’espace de pré-formation d’images-langage contrastif (CLIP). Ensuite, un modèle de diffusion stable augmenté, conçu pour la production de vidéos à partir de données IRMf, est co-entraîné avec les caractéristiques apprises pour les affiner.

Les chercheurs ont ajouté une mise au point quasi-image par image au modèle de diffusion stable pour générer des vidéos dynamiques de scènes. Ils ont également développé un système de guidage adversarial pour conditionner les scans IRMf à des fins spécifiques. Des vidéos de haute qualité ont été récupérées, et leur sémantique, telle que les mouvements et la dynamique des scènes, était précise.

L’équipe a évalué les résultats à l’aide de mesures sémantiques et de pixels au niveau de la vidéo et du cadre. Avec une précision de 85% dans les mesures sémantiques et de 0,19 dans le SSIM, cette méthode est 49% plus efficace que les méthodes de pointe précédentes. Les résultats suggèrent également que le modèle semble avoir une plausibilité biologique et une interprétabilité basées sur les résultats de l’étude de l’attention, qui ont montré qu’il se mappe sur le cortex visuel et les réseaux cognitifs supérieurs.

En raison des différences individuelles, la capacité de la technique proposée à se généraliser à travers les sujets est encore en cours d’étude. Moins de 10% des voxels corticaux sont utilisés dans cette méthode pour les reconstructions, tandis que le plein potentiel des données cérébrales totales reste inexploité. Les chercheurs estiment que à mesure que des modèles plus complexes seront construits, ce domaine trouvera probablement des applications dans des domaines tels que la neuroscience et les interfaces cerveau-ordinateur (ICO).

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Microsoft Azure lance ChatGPT pour l'IA d'entreprise

Microsoft Azure fait un bond en avant dans l’intelligence artificielle d’entreprise en introduisant ChatG...

AI

Méthodes efficaces pour faire face aux menaces de cybersécurité modernes

Les menaces en matière de cybersécurité augmentent avec les avancées technologiques. Cet article explique comment fai...

AI

La différence entre les modèles open source et les API IA/ML commerciales

Au cours des derniers mois, vous avez probablement rencontré d'innombrables débats sur l'utilisation de sources ouver...

AI

10 façons utiles d'utiliser Bard

Découvrez les 10 façons dont Bard peut vous aider à accomplir vos tâches, de la génération d'idées à la planification...

AI

IA générative axée sur les données avantages pour les données et l'analyse

L'IA générative est sur le point de révolutionner le paysage des données et de l'analyse, amplifiant la productivité ...

AI

Nouveau modèle de texte vers image de Metas - Explication du document CM3leon

Meta a récemment publié son nouveau modèle texte-image de pointe, appelé CM3Leon [1], qui NE repose PAS sur la diffus...