Des chercheurs de l’UC Berkeley et de Deepmind proposent SuccessVQA une reformulation de la détection du succès qui est adaptable aux VLM pré-entraînés tels que Flamingo.

Des chercheurs de l'UC Berkeley et de Deepmind proposent SuccessVQA, une reformulation adaptable de la détection du succès pour les VLM pré-entraînés comme Flamingo.

Pour atteindre la meilleure précision de performance possible, il est crucial de comprendre si un agent est sur la bonne voie ou la voie préférée pendant l’entraînement. Cela peut prendre la forme de féliciter un agent avec une récompense dans l’apprentissage par renforcement ou d’utiliser une métrique d’évaluation pour identifier les meilleures politiques possibles. En conséquence, être capable de détecter un tel comportement réussi devient une condition préalable fondamentale lors de l’entraînement d’agents intelligents avancés. C’est là que les détecteurs de succès entrent en jeu, car ils peuvent être utilisés pour classer si le comportement d’un agent est réussi ou non. Des recherches antérieures ont montré que développer des détecteurs de succès spécifiques à un domaine est relativement plus facile que des détecteurs plus généralisés. Cela est dû au fait que définir ce qui est considéré comme un succès pour la plupart des tâches réelles est assez difficile car c’est souvent subjectif. Par exemple, une œuvre d’art générée par IA peut en laisser certains fascinés, mais on ne peut pas en dire autant pour l’ensemble du public.

Au cours des dernières années, les chercheurs ont proposé différentes approches pour développer des détecteurs de succès, dont l’une est la modélisation de récompense avec des données de préférence. Cependant, ces modèles présentent certains inconvénients car ils donnent des performances appréciables uniquement pour l’ensemble fixe de tâches et de conditions environnementales observées dans les données d’entraînement annotées de préférence. Ainsi, pour assurer la généralisation, davantage d’annotations sont nécessaires pour couvrir une large gamme de domaines, ce qui est une tâche très intensive en main-d’œuvre. D’autre part, lorsqu’il s’agit de former des modèles qui utilisent à la fois la vision et le langage en entrée, une détection de succès généralisable doit garantir qu’elle donne des mesures précises dans les deux cas : les variations linguistiques et visuelles de la tâche spécifiée. Les modèles existants étaient généralement entraînés pour des conditions et des tâches fixes et sont donc incapables de se généraliser à de telles variations. De plus, s’adapter à de nouvelles conditions nécessite généralement de collecter un nouvel ensemble de données annotées et de re-entraîner le modèle, ce qui n’est pas toujours faisable.

Travaillant sur cette problématique, une équipe de chercheurs de DeepMind, une filiale d’Alphabet, a développé une approche pour former des détecteurs de succès robustes capables de résister aux variations à la fois des spécifications linguistiques et des conditions perceptuelles. Ils ont réalisé cela en exploitant de grands modèles de vision et de langage pré-entraînés comme Flamingo et des annotations de récompense humaine. L’étude est basée sur l’observation des chercheurs selon laquelle le pré-entraînement de Flamingo sur de vastes quantités de données linguistiques et visuelles diverses permettra de former des détecteurs de succès plus robustes. Les chercheurs affirment que leur contribution la plus significative est de reformuler la tâche de détection de succès généralisable comme un problème de question-réponse visuelle (VQA), appelé SuccessVQA. Cette approche spécifie la tâche à accomplir comme une simple question oui/non et utilise une architecture unifiée qui se compose uniquement d’un court extrait définissant l’environnement d’état et d’un texte décrivant le comportement désiré.

L’équipe de DeepMind a également démontré que l’affinage de Flamingo avec des annotations humaines permet une détection de succès généralisable dans trois domaines majeurs. Il s’agit notamment d’agents interactifs basés sur le langage naturel dans une simulation domestique, de la manipulation robotique dans le monde réel et de vidéos humaines égocentriques en pleine nature. La nature universelle de la formulation de la tâche SuccessVQA permet aux chercheurs d’utiliser la même architecture et le même mécanisme d’entraînement pour une large gamme de tâches de différents domaines. De plus, l’utilisation d’un modèle de vision et de langage pré-entraîné comme Flamingo a rendu beaucoup plus facile de profiter pleinement des avantages du pré-entraînement sur un grand ensemble de données multimodales. L’équipe estime que cela a rendu possible la généralisation à la fois des variations linguistiques et visuelles.

Pour évaluer leur reformulation de la détection de succès, les chercheurs ont réalisé plusieurs expériences sur des variations linguistiques et visuelles non vues. Ces expériences ont révélé que les modèles de vision et de langage pré-entraînés ont des performances comparables sur la plupart des tâches en distribution et surpassent significativement les modèles de récompense spécifiques à la tâche dans les scénarios hors distribution. Les investigations ont également révélé que ces détecteurs de succès sont capables d’une généralisation sans apprentissage à des variations inconnues en langue et en vision, là où les modèles de récompense existants ont échoué. Bien que la nouvelle approche proposée par les chercheurs de DeepMind ait des performances remarquables, elle présente encore certaines limites, notamment dans les tâches liées à l’environnement robotique. Les chercheurs ont déclaré que leurs travaux futurs consisteront à apporter plus d’améliorations dans ce domaine. DeepMind espère que la communauté de recherche considérera leur travail initial comme une pierre angulaire vers la réalisation de plus de succès en matière de détection de succès et de modélisation de récompense.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Est-ce que l'IA peut véritablement restaurer les détails du visage à partir d'images de basse qualité ? Découvrez DAEFR un cadre à double branche pour une qualité améliorée.

Dans le domaine du traitement d’image, récupérer des informations haute définition à partir de mauvaises photog...

AI

Les chercheurs du MIT utilisent l'apprentissage profond et la physique pour corriger les images par résonance magnétique (IRM) corrompues par le mouvement.

Une IRM (imagerie par résonance magnétique) est un test qui crée des images claires des structures à l’intérieu...

AI

Robot Polyvalent Change de Forme pour Différents Usages

Un robot en forme de tétraèdre développé par des chercheurs de l'Université de Bristol au Royaume-Uni présente des tu...

AI

6 étapes pour protéger votre vie privée lors de l'utilisation d'outils d'IA générative

Introduction L’émergence des outils d’IA générative a suscité à la fois enthousiasme et préoccupation. Ce...

AI

Les chercheurs du MIT présentent LILO un cadre neuro-symbolique pour apprendre des bibliothèques interprétables pour la synthèse de programmes

Les grands modèles linguistiques (LLM) deviennent de plus en plus compétents en programmation dans divers contextes, ...

AI

Comment OpenAI utilise GPT-4 pour une modération de contenu plus intelligente

OpenAI, un pionnier de l’intelligence artificielle, a dévoilé une méthode innovante pour exploiter la puissance...