Table des matières
Écrit ci-dessus et résumé personnel de l'auteur
Contexte du problème OccNeRF
La figure suivante montre le processus de base de la méthode OccNeRF. Le modèle prend des images multi-caméras en entrée, utilise d'abord le squelette 2D pour extraire les caractéristiques
entre la caméra et la grille occupée. Théoriquement, les caméras peuvent capturer des objets à des distances infinies, alors que les modèles de prévision d'occupation précédents ne prennent en compte que les espaces plus proches (par exemple, dans un rayon de 40 m). Dans les méthodes supervisées, le modèle peut apprendre à ignorer les objets distants en fonction des signaux de supervision ; dans les méthodes non supervisées, si seul l'espace proche est toujours pris en compte, la présence d'un grand nombre d'objets hors de portée dans l'image aura un effet négatif. impact sur le processus d’optimisation. Sur cette base, OccNeRF adopte des champs d'occupation paramétrés pour modéliser une gamme illimitée de scènes extérieures.
Estimation de la profondeur multi-trames
Génération d'étiquettes sémantiques
Les performances d'estimation de profondeur auto-supervisée multi-vues d'OccNeRF sur nuScenes sont présentées dans le tableau ci-dessous. On peut voir qu'OccNeRF basé sur la modélisation 3D surpasse considérablement la méthode 2D et surpasse également SimpleOcc, en grande partie en raison de la plage spatiale illimitée qu'OccNeRF modélise pour les scènes extérieures.
Les performances de prédiction d'occupation 3D d'OccNeRF sur nuScenes sont présentées dans le tableau ci-dessous. Étant donné qu’OccNeRF n’utilise pas du tout de données annotées, ses performances sont toujours en retard par rapport aux méthodes supervisées. Cependant, certaines catégories, telles que les surfaces carrossables et artificielles, ont atteint des performances comparables à celles des méthodes supervisées.
Maison Périphériques technologiques IA OccNeRF : aucune supervision des données lidar n'est requise

OccNeRF : aucune supervision des données lidar n'est requise

Feb 07, 2024 pm 09:57 PM
3d 自动驾驶

Écrit ci-dessus et résumé personnel de l'auteur

Ces dernières années, la tâche de prédiction d'occupation en 3D dans le domaine de la conduite autonome a reçu une large attention de la part du monde universitaire et de l'industrie en raison de ses avantages uniques. Cette tâche fournit des informations détaillées pour la planification de la conduite autonome et la navigation en reconstruisant la structure 3D de l'environnement environnant. Cependant, la plupart des méthodes courantes actuelles s'appuient sur des étiquettes générées sur la base de nuages ​​de points LiDAR pour superviser la formation du réseau. Dans une récente étude OccNeRF, les auteurs ont proposé une méthode de prédiction d’occupation multi-caméras auto-supervisée appelée Champs d’occupation paramétrés. Cette méthode résout le problème de l’absence de limites dans les scènes extérieures et réorganise la stratégie d’échantillonnage. Ensuite, grâce à la technologie de rendu de volume (Volume Rendering), le champ occupé est converti en une carte de profondeur multi-caméras et supervisé par une cohérence photométrique multi-images (Photometric Error). De plus, le procédé utilise également un modèle de segmentation sémantique à vocabulaire ouvert pré-entraîné pour générer des étiquettes sémantiques 2D afin de doter le domaine professionnel d'informations sémantiques. Ce modèle de segmentation sémantique à lexique ouvert est capable de segmenter différents objets dans une scène et d'attribuer des étiquettes sémantiques à chaque objet. En combinant ces étiquettes sémantiques avec des champs d'occupation, les modèles sont capables de mieux comprendre l'environnement et de faire des prédictions plus précises. En résumé, la méthode OccNeRF permet d'obtenir une prédiction d'occupation de haute précision dans des scénarios de conduite autonome grâce à l'utilisation combinée de champs d'occupation paramétrés, de rendu de volume et de cohérence photométrique multi-images, ainsi qu'avec un modèle de segmentation sémantique à vocabulaire ouvert. Cette méthode fournit au système de conduite autonome davantage d’informations environnementales et devrait améliorer la sécurité et la fiabilité de la conduite autonome.

OccNeRF : aucune supervision des données lidar nest requise

  • Lien papier : https://arxiv.org/pdf/2312.09243.pdf
  • Lien code : https://github.com/LinShan-Bin/OccNeRF

Contexte du problème OccNeRF

Ces dernières années, avec le développement rapide de la technologie de l’intelligence artificielle, de grands progrès ont été réalisés dans le domaine de la conduite autonome. La perception 3D constitue la base de la conduite autonome et fournit les informations nécessaires à la planification et à la prise de décision ultérieures. Dans les méthodes traditionnelles, le lidar peut capturer directement des données 3D précises, mais le coût élevé du capteur et la rareté des points de numérisation limitent son application pratique. En revanche, les méthodes de détection 3D basées sur l’image sont peu coûteuses et efficaces et font l’objet d’une attention croissante. La détection d'objets 3D multi-caméras est la norme des tâches de compréhension de scènes 3D depuis un certain temps, mais elle ne peut pas faire face aux catégories illimitées dans le monde réel et souffre de la distribution à longue traîne des données . La prédiction d'occupation 3D peut bien compenser ces défauts en reconstruisant directement la géométrie de la scène environnante grâce à une entrée multi-vues. La plupart des méthodes existantes se concentrent sur la conception de modèles et l'optimisation des performances, en s'appuyant sur des étiquettes générées par des nuages ​​de points LiDAR pour superviser la formation du réseau, ce qui n'est pas disponible dans les systèmes basés sur l'image. En d'autres termes, nous devons toujours utiliser des véhicules de collecte de données coûteux pour collecter des données de formation et gaspiller une grande quantité de données réelles sans annotation assistée par nuage de points LiDAR, ce qui limite dans une certaine mesure le développement de la prévision d'occupation 3D. Par conséquent, l’exploration de la prévision d’occupation 3D auto-supervisée est une direction très précieuse.

Explication détaillée de l'algorithme OccNeRF

La figure suivante montre le processus de base de la méthode OccNeRF. Le modèle prend des images multi-caméras en entrée, utilise d'abord le squelette 2D pour extraire les caractéristiques

de N images, puis obtient directement les caractéristiques 3D par simple projection et interpolation bilinéaire (sous espace paramétré ), et enfin via la 3D. Le réseau CNN optimise les fonctionnalités 3D et génère des prédictions. Pour entraîner le modèle, la méthode OccNeRF génère une carte de profondeur de l'image actuelle via le rendu du volume et introduit les images précédentes et suivantes pour calculer la perte photométrique. Pour introduire plus d'informations temporelles, OccNeRF utilise un champ d'occupation pour restituer des cartes de profondeur multi-images et calculer la fonction de perte. Dans le même temps, OccNeRF restitue également simultanément des cartes sémantiques 2D et est supervisé par le Open Lexicon Semantic Segmentation Model.

Champs d'occupation paramétrés

OccNeRF : aucune supervision des données lidar nest requiseDes champs d'occupation paramétrés sont proposés pour résoudre le problème de

l'écart de plage de perception

entre la caméra et la grille occupée. Théoriquement, les caméras peuvent capturer des objets à des distances infinies, alors que les modèles de prévision d'occupation précédents ne prennent en compte que les espaces plus proches (par exemple, dans un rayon de 40 m). Dans les méthodes supervisées, le modèle peut apprendre à ignorer les objets distants en fonction des signaux de supervision ; dans les méthodes non supervisées, si seul l'espace proche est toujours pris en compte, la présence d'un grand nombre d'objets hors de portée dans l'image aura un effet négatif. impact sur le processus d’optimisation. Sur cette base, OccNeRF adopte des champs d'occupation paramétrés pour modéliser une gamme illimitée de scènes extérieures.

L'espace de paramétrage dans OccNeRF est divisé en interne et externe. L'espace intérieur est une cartographie linéaire des coordonnées d'origine, conservant une haute résolution tandis que l'espace extérieur représente une plage infinie. Plus précisément, OccNeRF apporte les modifications suivantes aux coordonnées du point médian dans l'espace 3D :

est la coordonnée , est un paramètre réglable, indiquant la valeur limite correspondante de l'espace interne, est également réglable. Le paramètre ajusté représente la proportion de l'espace interne occupé. Lors de la génération de champs d'occupation paramétrés, OccNeRF échantillonne d'abord dans l'espace paramétré, obtient les coordonnées d'origine par transformation inverse, puis projette les coordonnées d'origine sur le plan image et obtient enfin le champ d'occupation par échantillonnage et convolution tridimensionnelle.

Estimation de la profondeur multi-trames

Afin d'entraîner le réseau d'occupation, OccNeRF choisit d'utiliser le rendu volumique pour convertir l'occupation en carte de profondeur et la superviser via une fonction de perte photométrique. La stratégie d'échantillonnage est importante lors du rendu des cartes de profondeur. Dans l'espace paramétré, si vous échantillonnez directement uniformément en fonction de la profondeur ou de la parallaxe, les points d'échantillonnage seront inégalement répartis dans l'espace interne ou externe, ce qui affectera le processus d'optimisation. Par conséquent, OccNeRF propose d'échantillonner directement et uniformément dans l'espace paramétré en partant du principe que le centre de la caméra est proche de l'origine. De plus, OccNeRF restitue et supervise des cartes de profondeur multi-images pendant la formation.

La figure ci-dessous démontre visuellement les avantages de l'utilisation de la représentation spatiale paramétrique. (La troisième ligne utilise l'espace paramétré, pas la deuxième ligne.)

OccNeRF : aucune supervision des données lidar nest requise

Génération d'étiquettes sémantiques

OccNeRF utilise GroundedSAM pré-entraîné (Grounding DINO + SAM) pour générer des étiquettes sémantiques 2D. Afin de générer des étiquettes de haute qualité, OccNeRF adopte deux stratégies. L'une est l'optimisation des mots rapides, qui remplace les catégories vagues dans nuScenes par des descriptions précises. Trois stratégies sont utilisées dans OccNeRF pour optimiser les mots d'invite : remplacement de mots ambigus (la voiture est remplacée par une berline), mot à mot multi-mots (l'ouvrage artificiel est remplacé par un bâtiment, un panneau d'affichage et un pont) et introduction d'informations supplémentaires (le vélo est remplacé à vélo, cycliste). La seconde consiste à déterminer la catégorie en fonction de la confiance de la trame de détection dans Grounding DINO au lieu de la confiance pixel par pixel donnée par SAM. L'effet d'étiquette sémantique généré par OccNeRF est le suivant :

OccNeRF : aucune supervision des données lidar nest requise

Résultats expérimentaux d'OccNeRF

OccNeRF a mené des expériences sur nuScenes et a principalement réalisé des tâches d'estimation de profondeur auto-supervisées multi-vues et de prédiction d'occupation 3D.

Estimation de profondeur auto-supervisée multi-vues

Les performances d'estimation de profondeur auto-supervisée multi-vues d'OccNeRF sur nuScenes sont présentées dans le tableau ci-dessous. On peut voir qu'OccNeRF basé sur la modélisation 3D surpasse considérablement la méthode 2D et surpasse également SimpleOcc, en grande partie en raison de la plage spatiale illimitée qu'OccNeRF modélise pour les scènes extérieures.

OccNeRF : aucune supervision des données lidar nest requiseCertaines visualisations dans l'article sont les suivantes :

OccNeRF : aucune supervision des données lidar nest requisePrédiction d'occupation 3D

Les performances de prédiction d'occupation 3D d'OccNeRF sur nuScenes sont présentées dans le tableau ci-dessous. Étant donné qu’OccNeRF n’utilise pas du tout de données annotées, ses performances sont toujours en retard par rapport aux méthodes supervisées. Cependant, certaines catégories, telles que les surfaces carrossables et artificielles, ont atteint des performances comparables à celles des méthodes supervisées.

OccNeRF : aucune supervision des données lidar nest requise Certaines des visualisations de l'article sont les suivantes :

OccNeRF : aucune supervision des données lidar nest requise

Résumé

À l'heure où de nombreux constructeurs automobiles tentent de supprimer les capteurs LiDAR, comment faire bon usage de milliers d'images non étiquetées les données constituent un sujet important. Et OccNeRF nous a apporté une tentative précieuse.

OccNeRF : aucune supervision des données lidar nest requiseLien original : https://mp.weixin.qq.com/s/UiYEeauAGVtT0c5SB2tHEA

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Comment déverrouiller tout dans Myrise
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Pourquoi le Gaussian Splatting est-il si populaire dans la conduite autonome que le NeRF commence à être abandonné ? Pourquoi le Gaussian Splatting est-il si populaire dans la conduite autonome que le NeRF commence à être abandonné ? Jan 17, 2024 pm 02:57 PM

Écrit ci-dessus et compréhension personnelle de l'auteur Le Gaussiansplatting tridimensionnel (3DGS) est une technologie transformatrice qui a émergé dans les domaines des champs de rayonnement explicites et de l'infographie ces dernières années. Cette méthode innovante se caractérise par l’utilisation de millions de gaussiennes 3D, ce qui est très différent de la méthode du champ de rayonnement neuronal (NeRF), qui utilise principalement un modèle implicite basé sur les coordonnées pour mapper les coordonnées spatiales aux valeurs des pixels. Avec sa représentation explicite de scènes et ses algorithmes de rendu différenciables, 3DGS garantit non seulement des capacités de rendu en temps réel, mais introduit également un niveau de contrôle et d'édition de scène sans précédent. Cela positionne 3DGS comme un révolutionnaire potentiel pour la reconstruction et la représentation 3D de nouvelle génération. À cette fin, nous fournissons pour la première fois un aperçu systématique des derniers développements et préoccupations dans le domaine du 3DGS.

Comment résoudre le problème de la longue traîne dans les scénarios de conduite autonome ? Comment résoudre le problème de la longue traîne dans les scénarios de conduite autonome ? Jun 02, 2024 pm 02:44 PM

Hier, lors de l'entretien, on m'a demandé si j'avais posé des questions à longue traîne, j'ai donc pensé faire un bref résumé. Le problème à longue traîne de la conduite autonome fait référence aux cas extrêmes dans les véhicules autonomes, c'est-à-dire à des scénarios possibles avec une faible probabilité d'occurrence. Le problème perçu de la longue traîne est l’une des principales raisons limitant actuellement le domaine de conception opérationnelle des véhicules autonomes intelligents à véhicule unique. L'architecture sous-jacente et la plupart des problèmes techniques de la conduite autonome ont été résolus, et les 5 % restants des problèmes à longue traîne sont progressivement devenus la clé pour restreindre le développement de la conduite autonome. Ces problèmes incluent une variété de scénarios fragmentés, de situations extrêmes et de comportements humains imprévisibles. La « longue traîne » des scénarios limites dans la conduite autonome fait référence aux cas limites dans les véhicules autonomes (VA). Les cas limites sont des scénarios possibles avec une faible probabilité d'occurrence. ces événements rares

CLIP-BEVFormer : superviser explicitement la structure BEVFormer pour améliorer les performances de détection à longue traîne CLIP-BEVFormer : superviser explicitement la structure BEVFormer pour améliorer les performances de détection à longue traîne Mar 26, 2024 pm 12:41 PM

Écrit ci-dessus et compréhension personnelle de l'auteur : À l'heure actuelle, dans l'ensemble du système de conduite autonome, le module de perception joue un rôle essentiel. Le véhicule autonome roulant sur la route ne peut obtenir des résultats de perception précis que via le module de perception en aval. dans le système de conduite autonome, prend des jugements et des décisions comportementales opportuns et corrects. Actuellement, les voitures dotées de fonctions de conduite autonome sont généralement équipées d'une variété de capteurs d'informations de données, notamment des capteurs de caméra à vision panoramique, des capteurs lidar et des capteurs radar à ondes millimétriques pour collecter des informations selon différentes modalités afin d'accomplir des tâches de perception précises. L'algorithme de perception BEV basé sur la vision pure est privilégié par l'industrie en raison de son faible coût matériel et de sa facilité de déploiement, et ses résultats peuvent être facilement appliqués à diverses tâches en aval.

Choisir une caméra ou un lidar ? Une étude récente sur la détection robuste d'objets 3D Choisir une caméra ou un lidar ? Une étude récente sur la détection robuste d'objets 3D Jan 26, 2024 am 11:18 AM

0. Écrit à l'avant&& Compréhension personnelle que les systèmes de conduite autonome s'appuient sur des technologies avancées de perception, de prise de décision et de contrôle, en utilisant divers capteurs (tels que caméras, lidar, radar, etc.) pour percevoir l'environnement et en utilisant des algorithmes et des modèles pour une analyse et une prise de décision en temps réel. Cela permet aux véhicules de reconnaître les panneaux de signalisation, de détecter et de suivre d'autres véhicules, de prédire le comportement des piétons, etc., permettant ainsi de fonctionner en toute sécurité et de s'adapter à des environnements de circulation complexes. Cette technologie attire actuellement une grande attention et est considérée comme un domaine de développement important pour l'avenir des transports. . un. Mais ce qui rend la conduite autonome difficile, c'est de trouver comment faire comprendre à la voiture ce qui se passe autour d'elle. Cela nécessite que l'algorithme de détection d'objets tridimensionnels du système de conduite autonome puisse percevoir et décrire avec précision les objets dans l'environnement, y compris leur emplacement,

Cet article vous suffit pour en savoir plus sur la conduite autonome et la prédiction de trajectoire ! Cet article vous suffit pour en savoir plus sur la conduite autonome et la prédiction de trajectoire ! Feb 28, 2024 pm 07:20 PM

La prédiction de trajectoire joue un rôle important dans la conduite autonome. La prédiction de trajectoire de conduite autonome fait référence à la prédiction de la trajectoire de conduite future du véhicule en analysant diverses données pendant le processus de conduite du véhicule. En tant que module central de la conduite autonome, la qualité de la prédiction de trajectoire est cruciale pour le contrôle de la planification en aval. La tâche de prédiction de trajectoire dispose d'une riche pile technologique et nécessite une connaissance de la perception dynamique/statique de la conduite autonome, des cartes de haute précision, des lignes de voie, des compétences en architecture de réseau neuronal (CNN&GNN&Transformer), etc. Il est très difficile de démarrer ! De nombreux fans espèrent se lancer dans la prédiction de trajectoire le plus tôt possible et éviter les pièges. Aujourd'hui, je vais faire le point sur quelques problèmes courants et des méthodes d'apprentissage introductives pour la prédiction de trajectoire ! Connaissances introductives 1. Existe-t-il un ordre d'entrée pour les épreuves de prévisualisation ? R : Regardez d’abord l’enquête, p

SIMPL : un benchmark de prédiction de mouvement multi-agents simple et efficace pour la conduite autonome SIMPL : un benchmark de prédiction de mouvement multi-agents simple et efficace pour la conduite autonome Feb 20, 2024 am 11:48 AM

Titre original : SIMPL : ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving Lien article : https://arxiv.org/pdf/2402.02519.pdf Lien code : https://github.com/HKUST-Aerial-Robotics/SIMPL Affiliation de l'auteur : Université des sciences de Hong Kong et technologie Idée DJI Paper : cet article propose une base de référence de prédiction de mouvement (SIMPL) simple et efficace pour les véhicules autonomes. Par rapport au cent agent traditionnel

NuScenes dernier SOTA SparseAD : les requêtes clairsemées contribuent à une conduite autonome efficace de bout en bout ! NuScenes dernier SOTA SparseAD : les requêtes clairsemées contribuent à une conduite autonome efficace de bout en bout ! Apr 17, 2024 pm 06:22 PM

Écrit à l'avant et point de départ Le paradigme de bout en bout utilise un cadre unifié pour réaliser plusieurs tâches dans les systèmes de conduite autonome. Malgré la simplicité et la clarté de ce paradigme, les performances des méthodes de conduite autonome de bout en bout sur les sous-tâches sont encore loin derrière les méthodes à tâche unique. Dans le même temps, les fonctionnalités de vue à vol d'oiseau (BEV) denses, largement utilisées dans les méthodes de bout en bout précédentes, rendent difficile l'adaptation à davantage de modalités ou de tâches. Un paradigme de conduite autonome de bout en bout (SparseAD) centré sur la recherche clairsemée est proposé ici, dans lequel la recherche clairsemée représente entièrement l'ensemble du scénario de conduite, y compris l'espace, le temps et les tâches, sans aucune représentation BEV dense. Plus précisément, une architecture clairsemée unifiée est conçue pour la connaissance des tâches, notamment la détection, le suivi et la cartographie en ligne. De plus, lourd

Parlons des systèmes de conduite autonome de bout en bout et de nouvelle génération, ainsi que de quelques malentendus sur la conduite autonome de bout en bout ? Parlons des systèmes de conduite autonome de bout en bout et de nouvelle génération, ainsi que de quelques malentendus sur la conduite autonome de bout en bout ? Apr 15, 2024 pm 04:13 PM

Au cours du mois dernier, pour des raisons bien connues, j'ai eu des échanges très intensifs avec divers professeurs et camarades de classe du secteur. Un sujet inévitable dans l'échange est naturellement le populaire Tesla FSDV12 de bout en bout. Je voudrais profiter de cette occasion pour trier certaines de mes pensées et opinions en ce moment pour votre référence et votre discussion. Comment définir un système de conduite autonome de bout en bout et quels problèmes devraient être résolus de bout en bout ? Selon la définition la plus traditionnelle, un système de bout en bout fait référence à un système qui saisit les informations brutes des capteurs et génère directement les variables pertinentes pour la tâche. Par exemple, en reconnaissance d'images, CNN peut être appelé de bout en bout par rapport à la méthode traditionnelle d'extraction de caractéristiques + classificateur. Dans les tâches de conduite autonome, saisir les données de divers capteurs (caméra/LiDAR

See all articles