Les chercheurs de l’University College London présentent DSP-SLAM un SLAM orienté objet avec des a priori de forme profonde

Les chercheurs de l'University College London dévoilent DSP-SLAM une méthode de SLAM orientée objet avec des connaissances approfondies sur les formes

Dans le domaine de l’Intelligence Artificielle (IA) en constante évolution, le Deep Learning devient de plus en plus populaire et se développe dans tous les secteurs pour faciliter la vie. La localisation et la cartographie simultanées (SLAM) en IA, qui est un élément essentiel des robots, des véhicules autonomes et des systèmes de réalité augmentée, ont récemment connu des avancées révolutionnaires.

Le SLAM consiste à reconstruire l’environnement environnant et à estimer la trajectoire d’une caméra en mouvement en même temps. Le SLAM dispose d’algorithmes incroyables capables d’estimer précisément les trajectoires de caméra et de produire d’excellentes reconstructions géométriques. Cependant, les représentations géométriques seules ne peuvent pas fournir des informations sémantiques importantes pour des tâches plus sophistiquées nécessitant une compréhension de la scène.

Inférer des détails spécifiques sur les objets de la scène, tels que leur nombre, leur taille, leur forme ou leur position relative, est un défi pour les systèmes SLAM sémantiques actuellement utilisés. Dans une recherche récente, une équipe de chercheurs du département d’informatique de l’University College London a présenté le dernier système SLAM orienté objet appelé DSP-SLAM.

DSP-SLAM a été conçu pour construire une carte conjointe complète et précise ; les objets en premier plan sont représentés par des modèles 3D denses, tandis que l’arrière-plan est représenté par des points de repère clairsemés. Le système peut même fonctionner avec des modalités d’entrée monoculaires, stéréo ou stéréo+LiDAR.

L’équipe a partagé que la principale fonction de DSP-SLAM est de prendre le nuage de points 3D produit en entrée par un système SLAM basé sur les caractéristiques et d’ajouter la capacité d’améliorer sa carte clairsemée en reconstruisant de manière dense les objets identifiés. La segmentation sémantique d’instance a été utilisée pour détecter les objets, et des plongements en forme profonde spécifiques à la catégorie ont été utilisés comme a priori pour estimer la forme et la position de ces objets.

L’équipe a partagé que l’ajustement de faisceaux sensible à DSP est la principale caractéristique du système, car il crée un graphe de pose pour l’optimisation conjointe des poses de caméra, des emplacements d’objet et des points caractéristiques. En utilisant cette stratégie, le système peut améliorer et optimiser la représentation de la scène, en prenant en compte à la fois les repères d’arrière-plan et les objets en premier plan.

Fonctionnant à une vitesse de 10 images par seconde avec plusieurs modalités d’entrée, à savoir monoculaire, stéréo et stéréo+LiDAR, le système proposé a démontré des performances impressionnantes. DSP-SLAM a été testé sur plusieurs ensembles de données, tels que des séquences stéréo+LiDAR provenant de l’ensemble de données d’odométrie KITTI et des séquences monoculaires-RGB provenant des ensembles de données Freiburg et Redwood-OS, pour vérifier ses capacités. Les résultats ont démontré la capacité du système à produire d’excellentes reconstructions d’objets complets tout en conservant une carte globale cohérente, même en présence d’observations incomplètes.

Les chercheurs ont résumé les principales contributions comme suit.

  1. DSP-SLAM combine la richesse de la cartographie sémantique de SLAM axé sur les objets avec la précision du suivi de caméra basé sur les caractéristiques en reconstruisant l’arrière-plan à l’aide de points caractéristiques clairsemés, contrairement aux méthodes antérieures qui ne représentaient que les objets.
  1. DSP-SLAM a surpassé les méthodes qui reposent sur des images de profondeur denses car il utilise des flux monochromes RGB uniquement au lieu de Node-SLAM, et il peut estimer avec précision la forme d’un objet avec aussi peu que 50 points 3D.
  1. DSP-SLAM a surpassé l’étiquetage automatique, une technique basée sur des a priori, tant du point de vue quantitatif que qualitatif pour l’estimation de la forme et de la position des objets.
  1. Les résultats des expérimentations sur l’ensemble de données d’odométrie KITTI ont montré que l’ajustement conjoint de faisceaux de DSP-SLAM surpasse ORB-SLAM2 en termes d’estimation de trajectoire, notamment lorsqu’une entrée stéréo+LiDAR est utilisée.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Utilisez l'intégration d'Amazon SageMaker et Salesforce Data Cloud pour alimenter vos applications Salesforce avec l'IA/ML.

Cet article est co-écrit par Daryl Martis, Directeur du Produit, Salesforce Einstein AI. C'est le deuxième article d'...

AI

Les chercheurs de Microsoft présentent LoRAShear Une nouvelle approche efficace de l'intelligence artificielle pour élaguer structurellement les LLM et récupérer les connaissances.

Les LLM peuvent traiter de vastes quantités de données textuelles et récupérer rapidement des informations pertinente...

AI

Google AI Research présente un algorithme quantique révolutionnaire pour simuler efficacement des oscillateurs couplés.

La mécanique classique traite du mouvement des objets, des forces agissant sur eux et de l’énergie associée à l...

AI

Découvrez Baichuan-13B le modèle de langage open source chinois destiné à concurrencer OpenAI.

Wang Xiaochuan, le fondateur du moteur de recherche chinois Sogou, a lancé un nouveau modèle de langage impressionnan...

Actualités sur l'IA

Robots de livraison de nourriture Uber Eats prêts à être utilisés dans plusieurs villes américaines.

La société de robots de service Serve Robotics a déclaré qu'Uber Eats déploiera jusqu'à 2 000 de ses robots de livrai...

AI

Vous avez payé 1 000 dollars pour un iPhone, mais Apple le contrôle toujours

L'entreprise code ses appareils avec un logiciel qui complique les réparations en déclenchant des avertissements de s...