Ces dernières années, la tâche de prédiction d'occupation en 3D dans le domaine de la conduite autonome a reçu une large attention de la part du monde universitaire et de l'industrie en raison de ses avantages uniques. Cette tâche fournit des informations détaillées pour la planification de la conduite autonome et la navigation en reconstruisant la structure 3D de l'environnement environnant. Cependant, la plupart des méthodes courantes actuelles s'appuient sur des étiquettes générées sur la base de nuages de points LiDAR pour superviser la formation du réseau. Dans une récente étude OccNeRF, les auteurs ont proposé une méthode de prédiction d’occupation multi-caméras auto-supervisée appelée Champs d’occupation paramétrés. Cette méthode résout le problème de l’absence de limites dans les scènes extérieures et réorganise la stratégie d’échantillonnage. Ensuite, grâce à la technologie de rendu de volume (Volume Rendering), le champ occupé est converti en une carte de profondeur multi-caméras et supervisé par une cohérence photométrique multi-images (Photometric Error). De plus, le procédé utilise également un modèle de segmentation sémantique à vocabulaire ouvert pré-entraîné pour générer des étiquettes sémantiques 2D afin de doter le domaine professionnel d'informations sémantiques. Ce modèle de segmentation sémantique à lexique ouvert est capable de segmenter différents objets dans une scène et d'attribuer des étiquettes sémantiques à chaque objet. En combinant ces étiquettes sémantiques avec des champs d'occupation, les modèles sont capables de mieux comprendre l'environnement et de faire des prédictions plus précises. En résumé, la méthode OccNeRF permet d'obtenir une prédiction d'occupation de haute précision dans des scénarios de conduite autonome grâce à l'utilisation combinée de champs d'occupation paramétrés, de rendu de volume et de cohérence photométrique multi-images, ainsi qu'avec un modèle de segmentation sémantique à vocabulaire ouvert. Cette méthode fournit au système de conduite autonome davantage d’informations environnementales et devrait améliorer la sécurité et la fiabilité de la conduite autonome.
Ces dernières années, avec le développement rapide de la technologie de l’intelligence artificielle, de grands progrès ont été réalisés dans le domaine de la conduite autonome. La perception 3D constitue la base de la conduite autonome et fournit les informations nécessaires à la planification et à la prise de décision ultérieures. Dans les méthodes traditionnelles, le lidar peut capturer directement des données 3D précises, mais le coût élevé du capteur et la rareté des points de numérisation limitent son application pratique. En revanche, les méthodes de détection 3D basées sur l’image sont peu coûteuses et efficaces et font l’objet d’une attention croissante. La détection d'objets 3D multi-caméras est la norme des tâches de compréhension de scènes 3D depuis un certain temps, mais elle ne peut pas faire face aux catégories illimitées dans le monde réel et souffre de la distribution à longue traîne des données . La prédiction d'occupation 3D peut bien compenser ces défauts en reconstruisant directement la géométrie de la scène environnante grâce à une entrée multi-vues. La plupart des méthodes existantes se concentrent sur la conception de modèles et l'optimisation des performances, en s'appuyant sur des étiquettes générées par des nuages de points LiDAR pour superviser la formation du réseau, ce qui n'est pas disponible dans les systèmes basés sur l'image. En d'autres termes, nous devons toujours utiliser des véhicules de collecte de données coûteux pour collecter des données de formation et gaspiller une grande quantité de données réelles sans annotation assistée par nuage de points LiDAR, ce qui limite dans une certaine mesure le développement de la prévision d'occupation 3D. Par conséquent, l’exploration de la prévision d’occupation 3D auto-supervisée est une direction très précieuse.
Explication détaillée de l'algorithme OccNeRF
de N images, puis obtient directement les caractéristiques 3D par simple projection et interpolation bilinéaire (sous espace paramétré ), et enfin via la 3D. Le réseau CNN optimise les fonctionnalités 3D et génère des prédictions. Pour entraîner le modèle, la méthode OccNeRF génère une carte de profondeur de l'image actuelle via le rendu du volume et introduit les images précédentes et suivantes pour calculer la perte photométrique. Pour introduire plus d'informations temporelles, OccNeRF utilise un champ d'occupation pour restituer des cartes de profondeur multi-images et calculer la fonction de perte. Dans le même temps, OccNeRF restitue également simultanément des cartes sémantiques 2D et est supervisé par le Open Lexicon Semantic Segmentation Model.
Champs d'occupation paramétrésDes champs d'occupation paramétrés sont proposés pour résoudre le problème de
l'écart de plage de perception
L'espace de paramétrage dans OccNeRF est divisé en interne et externe. L'espace intérieur est une cartographie linéaire des coordonnées d'origine, conservant une haute résolution tandis que l'espace extérieur représente une plage infinie. Plus précisément, OccNeRF apporte les modifications suivantes aux coordonnées du point médian dans l'espace 3D :
où est la coordonnée , est un paramètre réglable, indiquant la valeur limite correspondante de l'espace interne, est également réglable. Le paramètre ajusté représente la proportion de l'espace interne occupé. Lors de la génération de champs d'occupation paramétrés, OccNeRF échantillonne d'abord dans l'espace paramétré, obtient les coordonnées d'origine par transformation inverse, puis projette les coordonnées d'origine sur le plan image et obtient enfin le champ d'occupation par échantillonnage et convolution tridimensionnelle.
Afin d'entraîner le réseau d'occupation, OccNeRF choisit d'utiliser le rendu volumique pour convertir l'occupation en carte de profondeur et la superviser via une fonction de perte photométrique. La stratégie d'échantillonnage est importante lors du rendu des cartes de profondeur. Dans l'espace paramétré, si vous échantillonnez directement uniformément en fonction de la profondeur ou de la parallaxe, les points d'échantillonnage seront inégalement répartis dans l'espace interne ou externe, ce qui affectera le processus d'optimisation. Par conséquent, OccNeRF propose d'échantillonner directement et uniformément dans l'espace paramétré en partant du principe que le centre de la caméra est proche de l'origine. De plus, OccNeRF restitue et supervise des cartes de profondeur multi-images pendant la formation.
La figure ci-dessous démontre visuellement les avantages de l'utilisation de la représentation spatiale paramétrique. (La troisième ligne utilise l'espace paramétré, pas la deuxième ligne.)
OccNeRF utilise GroundedSAM pré-entraîné (Grounding DINO + SAM) pour générer des étiquettes sémantiques 2D. Afin de générer des étiquettes de haute qualité, OccNeRF adopte deux stratégies. L'une est l'optimisation des mots rapides, qui remplace les catégories vagues dans nuScenes par des descriptions précises. Trois stratégies sont utilisées dans OccNeRF pour optimiser les mots d'invite : remplacement de mots ambigus (la voiture est remplacée par une berline), mot à mot multi-mots (l'ouvrage artificiel est remplacé par un bâtiment, un panneau d'affichage et un pont) et introduction d'informations supplémentaires (le vélo est remplacé à vélo, cycliste). La seconde consiste à déterminer la catégorie en fonction de la confiance de la trame de détection dans Grounding DINO au lieu de la confiance pixel par pixel donnée par SAM. L'effet d'étiquette sémantique généré par OccNeRF est le suivant :
Résultats expérimentaux d'OccNeRFEstimation de profondeur auto-supervisée multi-vues
Certaines visualisations dans l'article sont les suivantes :
Prédiction d'occupation 3D
Certaines des visualisations de l'article sont les suivantes :
RésuméLien original : https://mp.weixin.qq.com/s/UiYEeauAGVtT0c5SB2tHEA
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!