« Cet article sur l’IA présente RMT une fusion de RetNet et de Transformer, pionnier d’une nouvelle ère d’efficacité et de précision de la vision par ordinateur. »

« Cet article sur l'IA présente RMT une fusion de RetNet et de Transformer, ouvrant ainsi une nouvelle ère d'efficacité et de précision dans le domaine de la vision par ordinateur. »

Après son apparition en NLP, le Transformer a été transféré dans le domaine de la vision par ordinateur, où il s’est révélé particulièrement efficace. En revanche, la communauté NLP s’intéresse de plus en plus au Retentive Network (RetNet), une conception qui pourrait éventuellement remplacer le Transformer. Des chercheurs chinois se sont demandé si l’application du concept RetNet à la vision donnerait des performances aussi impressionnantes. Pour résoudre ce problème, ils proposent RMT, un hybride de RetNet et de Transformer. RMT, influencé par RetNet, ajoute une décroissance explicite à l’infrastructure de la vision, permettant au modèle de vision d’utiliser les connaissances préalablement acquises sur les distances spatiales. Cette priorité spatiale liée à la distance permet de réguler précisément la bande passante perceptuelle de chaque jeton. Ils décomposent également le processus de modélisation le long des deux axes de l’image, ce qui aide à réduire le coût de calcul de la modélisation globale.

Des expériences approfondies ont montré que le RMT excelle dans diverses tâches de vision par ordinateur. Par exemple, avec seulement 4,5G FLOPS, le RMT obtient un taux de réussite de 84,1% dans le Top1-acc sur ImageNet-1k. Lorsque les modèles sont sensiblement de la même taille et sont entraînés en utilisant la même technique, le RMT produit systématiquement le meilleur Top1-acc. Dans des tâches secondaires telles que la détection d’objets, la segmentation d’instances et la segmentation sémantique, le RMT dépasse largement les infrastructures de vision existantes.

Des expériences approfondies montrent que la stratégie proposée fonctionne ; par conséquent, les chercheurs soutiennent leurs revendications. Le RMT obtient des résultats nettement meilleurs dans les tâches de classification d’images que les modèles de pointe (SOTA). Le modèle dépasse les modèles concurrents dans diverses tâches, notamment la détection d’objets et la segmentation d’instances.

Les contributions suivantes ont été apportées :

  • Les chercheurs intègrent des connaissances spatiales préalables sur les distances dans les modèles de vision, en transposant le processus clé du Retentive Network, la rétention, dans le contexte bidimensionnel. Le Retentive SelfAttention (ReSA) est le nom du nouveau mécanisme.
  • Pour simplifier son calcul, les chercheurs décomposent le ReSA le long de deux axes de l’image. Cette stratégie de décomposition réduit efficacement l’effort de calcul requis sans impact négligeable sur l’efficacité du modèle.
  • Des tests approfondis ont prouvé la performance supérieure du RMT. Le RMT présente des avantages particulièrement puissants dans les tâches secondaires telles que la détection d’objets et la segmentation d’instances.

En résumé, les chercheurs suggèrent le RMT, une infrastructure de vision qui combine un réseau rétentif et un Transformer de vision. Avec le RMT, les connaissances spatiales préalables sont introduites dans les modèles visuels sous la forme d’une décroissance explicite liée à la distance. L’acronyme ReSA décrit le processus novateur d’amélioration de la rétention de la mémoire. Le RMT utilise également une technique qui décompose le ReSA en deux axes pour simplifier le modèle. Des expériences approfondies confirment l’efficacité du RMT, en particulier dans les tâches secondaires telles que la détection d’objets, où le RMT présente des avantages notables.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Les plus grands annonceurs du monde adoptent la puissance de l'IA Un changement de paradigme dans la publicité

Dans un mouvement qui pourrait remodeler le paysage de la publicité, certains des annonceurs les plus renommés au mon...

Recherche en IA

Mon parcours vers l'admission en doctorat en Intelligence Artificielle.

Après 6 mois intenses de candidatures universitaires et de comptage anxieux des jours, je suis heureux de dire que je...

AI

Google AI présente MedLM Une famille de modèles de base affinés pour les cas d'utilisation de l'industrie de la santé.

Les chercheurs de Google ont introduit une base de modèles ajustés pour l’industrie de la santé, MedLM, actuell...

AI

Cet article sur l'IA de GSAi China présente une étude complète des agents autonomes basés sur LLM.

Les agents autonomes représentent des systèmes auto-opérants qui présentent des degrés d’indépendance variables...

Science des données

Le collectif MIT-Pillar AI annonce les premiers bénéficiaires de subventions initiales.

Six équipes menant des recherches en IA, en science des données et en apprentissage automatique reçoivent des finance...

AI

Ce bulletin d'information sur l'IA est tout ce dont vous avez besoin #62

Cette semaine, nous avons suivi les développements des modèles de codage chez META ainsi que les nouvelles capacités ...