Des chercheurs de Google présentent RO-ViT une méthode d’IA simple pour pré-entraîner les visionneuses de transformations de manière consciente des régions afin d’améliorer la détection de vocabulaires ouverts.

Les chercheurs de Google ont développé RO-ViT, une méthode d'IA simple pour améliorer la détection de vocabulaires ouverts en pré-entraînant les visionneuses de transformations de manière consciente des régions.

Les avancées récentes ont permis aux ordinateurs d’interpréter et de comprendre les informations visuelles du monde, tout comme la vision humaine. Cela implique le traitement, l’analyse et l’extraction d’informations significatives à partir d’images et de vidéos. La vision par ordinateur permet l’automatisation des tâches nécessitant une interprétation visuelle, réduisant ainsi le besoin d’intervention manuelle. La détection d’objets est une tâche de vision par ordinateur qui consiste à identifier et localiser plusieurs objets d’intérêt dans une image ou une séquence vidéo.

La détection d’objets vise à déterminer quels objets sont présents dans la scène et à fournir des informations sur leur emplacement dans l’image. La plupart des détecteurs d’objets modernes reposent sur des annotations manuelles de régions et d’étiquettes de classe, ce qui limite leur taille de vocabulaire et rend coûteuse leur mise à l’échelle.

Les modèles de vision-langage (VLM) peuvent être utilisés pour combler le fossé entre la préformation au niveau de l’image et l’affinement au niveau de l’objet. Cependant, la notion d’objets/régions doit être utilisée de manière adéquate dans le processus de préformation de tels modèles.

Des chercheurs de Google Brain ont présenté un modèle simple pour combler le fossé entre la préformation au niveau de l’image et l’affinement au niveau de l’objet. Ils présentent les transformateurs de vision à vocabulaire ouvert conscients des régions (RO-ViT) pour accomplir la tâche.

RO-ViT est une manière simple de préformer les transformateurs de vision de manière consciente des régions pour la détection d’objets à vocabulaire ouvert. La préformation standard nécessite des plongements de positionnement d’image complets. Au lieu de cela, les chercheurs découpent et redimensionnent aléatoirement des régions des plongements de positionnement au lieu d’utiliser les plongements de positionnement de l’image entière. Ils appellent cette méthode “Plongement Positionnel Découpé”.

L’équipe a montré que la préformation image-texte avec une perte focale est plus efficace que la perte softmax CE existante. Ils ont également proposé diverses techniques de détection d’objets novatrices. Ils soutiennent que les approches existantes manquent souvent d’objets nouveaux à l’étape de proposition d’objets car les propositions doivent souvent être plus équilibrées.

L’équipe affirme que son modèle RO-ViT atteint le meilleur score sur le benchmark de détection d’objets à vocabulaire ouvert LVIS. Leurs statistiques montrent qu’il l’atteint sur 9 des 12 mesures des benchmarks de recherche image-texte. Cela reflète que la représentation apprise est bénéfique au niveau régional et très efficace dans la détection d’objets à vocabulaire ouvert.

À mesure que la technologie de détection d’objets progresse, le développement, le déploiement et la réglementation responsables seront cruciaux pour maximiser ses impacts positifs tout en atténuant les risques potentiels. Globalement, les progrès continus dans la technologie de détection d’objets devraient contribuer à un avenir meilleur en révolutionnant les industries, en améliorant la sécurité et la qualité de vie, et en permettant des innovations qui étaient autrefois considérées comme de la science-fiction.

Consultez le document et le blog de Google. Tout le crédit de cette recherche revient aux chercheurs de ce projet. N’oubliez pas non plus de rejoindre notre subreddit ML de plus de 29k abonnés, notre communauté Facebook de plus de 40k membres, notre chaîne Discord et notre newsletter par e-mail, où nous partageons les dernières actualités de la recherche en IA, des projets d’IA intéressants et bien plus encore.

Si vous aimez notre travail, vous adorerez notre newsletter.

L’article Les chercheurs de Google présentent RO-ViT : une méthode d’IA simple pour préformer les transformateurs de vision de manière consciente des régions afin d’améliorer la détection d’objets à vocabulaire ouvert est apparu en premier sur MarkTechPost.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more