Des chercheurs de l’Université nationale de Singapour proposent Mind-Video un nouvel outil d’IA qui utilise des données d’IRMf du cerveau pour recréer des images vidéo.
Des chercheurs de l'Université nationale de Singapour créent Mind-Video, un outil d'IA utilisant des données d'IRMf pour recréer des vidéos.
Comprendre la cognition humaine a rendu la reconstruction de la vision humaine à partir des processus cérébraux intrigante, surtout lorsqu’on utilise des technologies non invasives comme l’imagerie par résonance magnétique fonctionnelle (IRMf). Il y a eu beaucoup de progrès dans la récupération d’images fixes à partir d’enregistrements cérébraux non invasifs, mais pas beaucoup en ce qui concerne les expériences visuelles continues comme les films.
Bien que les technologies non invasives ne collectent que peu de données puisqu’elles sont moins robustes et plus vulnérables aux influences extérieures comme le bruit. De plus, la collecte de données de neuro-imagerie est un processus long et coûteux.
Des progrès ont été réalisés malgré ces défis, notamment dans l’apprentissage de caractéristiques utiles de l’IRMf avec des paires d’annotations IRMf clairsemées. Contrairement aux images statiques, l’expérience visuelle humaine est un flux continu et changeant de paysages, de mouvements et d’objets. Parce que l’IRMf mesure les signaux dépendant du niveau d’oxygénation du sang (BOLD) et prend des images de l’activité cérébrale toutes les quelques secondes, il peut être difficile de restaurer l’expérience visuelle dynamique. Chaque lecture de l’IRMf peut être considérée comme une “moyenne” de l’activité cérébrale pendant l’analyse. Au contraire, la fréquence d’images d’une vidéo standard est de 30 images par seconde (IPS). Dans le temps qu’il faut pour acquérir une image IRMf, 60 images vidéo peuvent être affichées comme stimuli visuels, exposant potentiellement le sujet à une large gamme d’objets, d’actions et de paramètres. Par conséquent, récupérer des films à une fréquence d’images significativement plus élevée que la résolution temporelle de l’IRMf via le décodage de l’IRMf est un défi.
- Des chercheurs de l’Université du Texas à Austin et de l’Université de Californie à Berkeley présentent Ambient Diffusion un cadre d’intelligence artificielle pour former/affiner des modèles de diffusion en ne disposant que de données corrompues en entrée.
- Découvrez QLORA une approche de fine-tuning efficace qui réduit suffisamment l’utilisation de la mémoire pour permettre de fine-tuner un modèle de 65 milliards de paramètres sur une seule GPU de 48 Go tout en préservant les performances complètes de fine-tuning en 16 bits.
- Les LLM surpassent l’apprentissage par renforcement – Découvrez SPRING un cadre novateur de suggestion pour les LLM conçu pour permettre la planification et le raisonnement en chaîne dans le contexte.
Des chercheurs de l’Université nationale de Singapour et de l’Université chinoise de Hong Kong ont introduit MinD-Video, un pipeline modulaire de décodage cérébral comprenant un encodeur IRMf et un modèle de diffusion stable augmenté, formés indépendamment puis affinés ensemble. Le modèle proposé prend des données du cerveau par étapes, élargissant ses connaissances du domaine sémantique.
Initialement, l’équipe entraîne des caractéristiques visuelles IRMf génériques à l’aide d’un apprentissage non supervisé à grande échelle et d’une modélisation cérébrale masquée. Ensuite, ils utilisent la multimodalité de l’ensemble de données annoté pour extraire les caractéristiques liées à la sémantique et utilisent l’apprentissage contrastif pour former l’encodeur IRMf dans l’espace de pré-formation d’images-langage contrastif (CLIP). Ensuite, un modèle de diffusion stable augmenté, conçu pour la production de vidéos à partir de données IRMf, est co-entraîné avec les caractéristiques apprises pour les affiner.
Les chercheurs ont ajouté une mise au point quasi-image par image au modèle de diffusion stable pour générer des vidéos dynamiques de scènes. Ils ont également développé un système de guidage adversarial pour conditionner les scans IRMf à des fins spécifiques. Des vidéos de haute qualité ont été récupérées, et leur sémantique, telle que les mouvements et la dynamique des scènes, était précise.
L’équipe a évalué les résultats à l’aide de mesures sémantiques et de pixels au niveau de la vidéo et du cadre. Avec une précision de 85% dans les mesures sémantiques et de 0,19 dans le SSIM, cette méthode est 49% plus efficace que les méthodes de pointe précédentes. Les résultats suggèrent également que le modèle semble avoir une plausibilité biologique et une interprétabilité basées sur les résultats de l’étude de l’attention, qui ont montré qu’il se mappe sur le cortex visuel et les réseaux cognitifs supérieurs.
En raison des différences individuelles, la capacité de la technique proposée à se généraliser à travers les sujets est encore en cours d’étude. Moins de 10% des voxels corticaux sont utilisés dans cette méthode pour les reconstructions, tandis que le plein potentiel des données cérébrales totales reste inexploité. Les chercheurs estiment que à mesure que des modèles plus complexes seront construits, ce domaine trouvera probablement des applications dans des domaines tels que la neuroscience et les interfaces cerveau-ordinateur (ICO).
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Des chercheurs de l’Université de technologie de Nanyang à Singapour ont introduit ResShift un nouveau modèle d’agrandissement d’image qui utilise le décalage résiduel et permet d’obtenir une super-résolution d’image plus rapidement que d’autres méthodes.
- Les chercheurs de l’UC Berkeley présentent Video Prediction Rewards (VIPER) un algorithme qui exploite les modèles de prédiction vidéo pré-entraînés en tant que signaux de récompense sans action pour l’apprentissage par renforcement.
- DeepMind AI stimule considérablement l’exposition de YouTube Shorts en générant automatiquement des descriptions pour des millions de vidéos
- Cette recherche en IA explore les limites et les capacités des modèles de langage à grande échelle (LLM) Transformer, de manière empirique et théorique, sur des tâches compositionnelles.
- Exploiter l’apprentissage automatique pour le développement d’une stratégie marketing efficace
- Optimisation du régulateur PID Une approche de descente de gradient
- Entrée vocale et langage naturel pour votre application mobile en utilisant LLMs