Avancée de la reconnaissance des actions humaines en réalité virtuelle Cet article sur l’IA présente LKA-GCN avec une attention de noyau large sur le squelette pour des performances inégalées.
Advancement in human action recognition in virtual reality. This article on AI presents LKA-GCN with a focus on skeleton for unmatched performance.
La Reconnaissance d’Actions Humaines basée sur les squelettes est un domaine de la vision par ordinateur qui identifie les actions humaines en analysant les positions articulaires squelettiques à partir de données vidéo. Elle utilise des modèles d’apprentissage automatique pour comprendre les dynamiques temporelles et les configurations spatiales, ce qui permet des applications dans la surveillance, les soins de santé, l’analyse sportive, et bien plus encore.
Depuis l’émergence de ce domaine de recherche, les scientifiques ont suivi deux principales stratégies. La première stratégie est celle des méthodes faites à la main : ces premières techniques appliquaient des opérations géométriques 3D pour créer des représentations d’actions alimentées dans des classificateurs classiques. Cependant, elles nécessitent l’assistance humaine pour apprendre des indices d’actions de haut niveau, ce qui entraîne des performances obsolètes. La deuxième stratégie est celle des méthodes d’apprentissage profond : les récents progrès de l’apprentissage profond ont révolutionné la reconnaissance d’actions. Les méthodes de pointe se concentrent sur la conception de représentations de caractéristiques qui captent la topologie spatiale et les corrélations de mouvement temporel. Plus précisément, les réseaux de convolution de graphes (RCG) ont émergé comme une solution puissante pour la reconnaissance d’actions basée sur les squelettes, donnant des résultats impressionnants dans diverses études.
Dans ce contexte, un nouvel article a récemment été publié pour proposer une nouvelle approche appelée “réseau de convolution de graphes à attention à noyau large sur les squelettes” (LKA-GCN). Elle aborde deux principaux défis de la reconnaissance d’actions basée sur les squelettes :
- Introduction à l’apprentissage statistique, édition Python livre gratuit
- Guide complet des fonctions financières dans Excel
- Stable Diffusion XL 1.0 de Stability AI une percée dans la génération d’images par IA
- Les dépendances à longue distance : LKA-GCN introduit un opérateur d’attention à noyau large sur les squelettes (SLKA) pour capturer efficacement les corrélations à longue distance entre les articulations, surmontant ainsi le problème de lissage excessif des méthodes existantes.
- Les informations temporelles précieuses : LKA-GCN utilise une stratégie de modélisation des mouvements articulaires faits à la main (JMM) pour se concentrer sur les images avec des mouvements articulaires significatifs, améliorant ainsi les caractéristiques temporelles et la précision de la reconnaissance.
La méthode proposée utilise une Modélisation Graphique Spatio-temporelle des données squelettiques en tant que graphe, où le graphe spatial capture la topologie naturelle des articulations humaines, et le graphe temporel encode les corrélations de la même articulation sur les images adjacentes. La représentation graphique est générée à partir des données squelettiques, une séquence de coordonnées 3D représentant les articulations humaines au fil du temps. Les auteurs ont introduit l’opérateur SLKA, combinant des mécanismes d’auto-attention avec des convolutions à noyau large pour capturer efficacement les dépendances à longue distance entre les articulations humaines. Il agrège les dépendances indirectes à travers un champ récepteur plus large tout en minimisant la charge de calcul. De plus, LKA-GCN comprend la stratégie JMM, qui se concentre sur des caractéristiques temporelles informatives en calculant des images de référence qui reflètent les mouvements articulaires moyens dans des plages locales. LKA-GCN est composé de modules SLKA spatio-temporels et d’une tête de reconnaissance, utilisant une stratégie de fusion multi-flux pour améliorer les performances de reconnaissance. Enfin, la méthode utilise une approche multi-flux, divisant les données squelettiques en trois flux : flux d’articulations, flux d’os et flux de mouvement.
Pour évaluer LKA-GCN, les auteurs ont utilisé diverses expériences pour mener une étude expérimentale sur trois ensembles de données de reconnaissance d’actions basées sur les squelettes (NTU-RGBD 60, NTU-RGBD 120 et Kinetics-Skeleton 400). La méthode est comparée à une ligne de base, et l’impact de différentes composantes, telles que l’opérateur SLKA et la stratégie de modélisation des mouvements articulaires (JMM), est analysé. La stratégie de fusion à deux flux est également explorée. Les résultats expérimentaux montrent que LKA-GCN surpasse les méthodes de pointe, démontrant son efficacité pour capturer les dépendances à longue distance et améliorer la précision de la reconnaissance. L’analyse visuelle valide en outre la capacité de la méthode à capturer la sémantique des actions et les dépendances articulaires.
En conclusion, LKA-GCN aborde les principaux défis de la reconnaissance d’actions basée sur les squelettes, en capturant les dépendances à longue distance et les informations temporelles précieuses. Grâce à l’opérateur SLKA et à la stratégie JMM, LKA-GCN surpasse les méthodes de pointe dans les évaluations expérimentales. Son approche novatrice promet une reconnaissance d’actions plus précise et robuste dans diverses applications. Cependant, l’équipe de recherche reconnaît certaines limitations. Elle prévoit d’étendre son approche pour inclure des modalités de données telles que les cartes de profondeur et les nuages de points pour une meilleure performance de reconnaissance. De plus, elle vise à optimiser l’efficacité du modèle en utilisant des stratégies de distillation des connaissances pour répondre aux exigences de l’industrie.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Robot parlant Notre nouveau modèle d’IA traduit la vision et le langage en actions robotiques.
- RT-2 Nouveau modèle traduit la vision et le langage en action
- Meilleurs générateurs d’art basés sur l’intelligence artificielle AI en 2023
- Découvrez le modèle GOAT-7B-Community un modèle d’IA affiné à partir du modèle LLaMA-2 7B sur un ensemble de données collectées à partir de l’application GoatChat.
- FraudGPT La montée alarmante des outils de cybercriminalité alimentés par l’IA
- CDF vs PDF Quelle est la différence?
- Maîtriser l’ingénierie des prompts pour les applications LLM avec LangChain