OccNeRF : aucune supervision des données lidar n'est requise
Écrit ci-dessus et résumé personnel de l'auteur
Ces dernières années, la tâche de prédiction d'occupation en 3D dans le domaine de la conduite autonome a reçu une large attention de la part du monde universitaire et de l'industrie en raison de ses avantages uniques. Cette tâche fournit des informations détaillées pour la planification de la conduite autonome et la navigation en reconstruisant la structure 3D de l'environnement environnant. Cependant, la plupart des méthodes courantes actuelles s'appuient sur des étiquettes générées sur la base de nuages de points LiDAR pour superviser la formation du réseau. Dans une récente étude OccNeRF, les auteurs ont proposé une méthode de prédiction d’occupation multi-caméras auto-supervisée appelée Champs d’occupation paramétrés. Cette méthode résout le problème de l’absence de limites dans les scènes extérieures et réorganise la stratégie d’échantillonnage. Ensuite, grâce à la technologie de rendu de volume (Volume Rendering), le champ occupé est converti en une carte de profondeur multi-caméras et supervisé par une cohérence photométrique multi-images (Photometric Error). De plus, le procédé utilise également un modèle de segmentation sémantique à vocabulaire ouvert pré-entraîné pour générer des étiquettes sémantiques 2D afin de doter le domaine professionnel d'informations sémantiques. Ce modèle de segmentation sémantique à lexique ouvert est capable de segmenter différents objets dans une scène et d'attribuer des étiquettes sémantiques à chaque objet. En combinant ces étiquettes sémantiques avec des champs d'occupation, les modèles sont capables de mieux comprendre l'environnement et de faire des prédictions plus précises. En résumé, la méthode OccNeRF permet d'obtenir une prédiction d'occupation de haute précision dans des scénarios de conduite autonome grâce à l'utilisation combinée de champs d'occupation paramétrés, de rendu de volume et de cohérence photométrique multi-images, ainsi qu'avec un modèle de segmentation sémantique à vocabulaire ouvert. Cette méthode fournit au système de conduite autonome davantage d’informations environnementales et devrait améliorer la sécurité et la fiabilité de la conduite autonome.
- Lien papier : https://arxiv.org/pdf/2312.09243.pdf
- Lien code : https://github.com/LinShan-Bin/OccNeRF
Contexte du problème OccNeRF
Ces dernières années, avec le développement rapide de la technologie de l’intelligence artificielle, de grands progrès ont été réalisés dans le domaine de la conduite autonome. La perception 3D constitue la base de la conduite autonome et fournit les informations nécessaires à la planification et à la prise de décision ultérieures. Dans les méthodes traditionnelles, le lidar peut capturer directement des données 3D précises, mais le coût élevé du capteur et la rareté des points de numérisation limitent son application pratique. En revanche, les méthodes de détection 3D basées sur l’image sont peu coûteuses et efficaces et font l’objet d’une attention croissante. La détection d'objets 3D multi-caméras est la norme des tâches de compréhension de scènes 3D depuis un certain temps, mais elle ne peut pas faire face aux catégories illimitées dans le monde réel et souffre de la distribution à longue traîne des données . La prédiction d'occupation 3D peut bien compenser ces défauts en reconstruisant directement la géométrie de la scène environnante grâce à une entrée multi-vues. La plupart des méthodes existantes se concentrent sur la conception de modèles et l'optimisation des performances, en s'appuyant sur des étiquettes générées par des nuages de points LiDAR pour superviser la formation du réseau, ce qui n'est pas disponible dans les systèmes basés sur l'image. En d'autres termes, nous devons toujours utiliser des véhicules de collecte de données coûteux pour collecter des données de formation et gaspiller une grande quantité de données réelles sans annotation assistée par nuage de points LiDAR, ce qui limite dans une certaine mesure le développement de la prévision d'occupation 3D. Par conséquent, l’exploration de la prévision d’occupation 3D auto-supervisée est une direction très précieuse.
Explication détaillée de l'algorithme OccNeRF
La figure suivante montre le processus de base de la méthode OccNeRF. Le modèle prend des images multi-caméras en entrée, utilise d'abord le squelette 2D pour extraire les caractéristiques
de N images, puis obtient directement les caractéristiques 3D par simple projection et interpolation bilinéaire (sous espace paramétré ), et enfin via la 3D. Le réseau CNN optimise les fonctionnalités 3D et génère des prédictions. Pour entraîner le modèle, la méthode OccNeRF génère une carte de profondeur de l'image actuelle via le rendu du volume et introduit les images précédentes et suivantes pour calculer la perte photométrique. Pour introduire plus d'informations temporelles, OccNeRF utilise un champ d'occupation pour restituer des cartes de profondeur multi-images et calculer la fonction de perte. Dans le même temps, OccNeRF restitue également simultanément des cartes sémantiques 2D et est supervisé par le Open Lexicon Semantic Segmentation Model.
Champs d'occupation paramétrésDes champs d'occupation paramétrés sont proposés pour résoudre le problème de
entre la caméra et la grille occupée. Théoriquement, les caméras peuvent capturer des objets à des distances infinies, alors que les modèles de prévision d'occupation précédents ne prennent en compte que les espaces plus proches (par exemple, dans un rayon de 40 m). Dans les méthodes supervisées, le modèle peut apprendre à ignorer les objets distants en fonction des signaux de supervision ; dans les méthodes non supervisées, si seul l'espace proche est toujours pris en compte, la présence d'un grand nombre d'objets hors de portée dans l'image aura un effet négatif. impact sur le processus d’optimisation. Sur cette base, OccNeRF adopte des champs d'occupation paramétrés pour modéliser une gamme illimitée de scènes extérieures.
L'espace de paramétrage dans OccNeRF est divisé en interne et externe. L'espace intérieur est une cartographie linéaire des coordonnées d'origine, conservant une haute résolution tandis que l'espace extérieur représente une plage infinie. Plus précisément, OccNeRF apporte les modifications suivantes aux coordonnées du point médian dans l'espace 3D :
où est la coordonnée , est un paramètre réglable, indiquant la valeur limite correspondante de l'espace interne, est également réglable. Le paramètre ajusté représente la proportion de l'espace interne occupé. Lors de la génération de champs d'occupation paramétrés, OccNeRF échantillonne d'abord dans l'espace paramétré, obtient les coordonnées d'origine par transformation inverse, puis projette les coordonnées d'origine sur le plan image et obtient enfin le champ d'occupation par échantillonnage et convolution tridimensionnelle.
Estimation de la profondeur multi-trames
Afin d'entraîner le réseau d'occupation, OccNeRF choisit d'utiliser le rendu volumique pour convertir l'occupation en carte de profondeur et la superviser via une fonction de perte photométrique. La stratégie d'échantillonnage est importante lors du rendu des cartes de profondeur. Dans l'espace paramétré, si vous échantillonnez directement uniformément en fonction de la profondeur ou de la parallaxe, les points d'échantillonnage seront inégalement répartis dans l'espace interne ou externe, ce qui affectera le processus d'optimisation. Par conséquent, OccNeRF propose d'échantillonner directement et uniformément dans l'espace paramétré en partant du principe que le centre de la caméra est proche de l'origine. De plus, OccNeRF restitue et supervise des cartes de profondeur multi-images pendant la formation.
La figure ci-dessous démontre visuellement les avantages de l'utilisation de la représentation spatiale paramétrique. (La troisième ligne utilise l'espace paramétré, pas la deuxième ligne.)
Génération d'étiquettes sémantiques
OccNeRF utilise GroundedSAM pré-entraîné (Grounding DINO + SAM) pour générer des étiquettes sémantiques 2D. Afin de générer des étiquettes de haute qualité, OccNeRF adopte deux stratégies. L'une est l'optimisation des mots rapides, qui remplace les catégories vagues dans nuScenes par des descriptions précises. Trois stratégies sont utilisées dans OccNeRF pour optimiser les mots d'invite : remplacement de mots ambigus (la voiture est remplacée par une berline), mot à mot multi-mots (l'ouvrage artificiel est remplacé par un bâtiment, un panneau d'affichage et un pont) et introduction d'informations supplémentaires (le vélo est remplacé à vélo, cycliste). La seconde consiste à déterminer la catégorie en fonction de la confiance de la trame de détection dans Grounding DINO au lieu de la confiance pixel par pixel donnée par SAM. L'effet d'étiquette sémantique généré par OccNeRF est le suivant :
OccNeRF a mené des expériences sur nuScenes et a principalement réalisé des tâches d'estimation de profondeur auto-supervisées multi-vues et de prédiction d'occupation 3D.
Estimation de profondeur auto-supervisée multi-vues
Les performances d'estimation de profondeur auto-supervisée multi-vues d'OccNeRF sur nuScenes sont présentées dans le tableau ci-dessous. On peut voir qu'OccNeRF basé sur la modélisation 3D surpasse considérablement la méthode 2D et surpasse également SimpleOcc, en grande partie en raison de la plage spatiale illimitée qu'OccNeRF modélise pour les scènes extérieures.
Certaines visualisations dans l'article sont les suivantes :
Prédiction d'occupation 3D
Les performances de prédiction d'occupation 3D d'OccNeRF sur nuScenes sont présentées dans le tableau ci-dessous. Étant donné qu’OccNeRF n’utilise pas du tout de données annotées, ses performances sont toujours en retard par rapport aux méthodes supervisées. Cependant, certaines catégories, telles que les surfaces carrossables et artificielles, ont atteint des performances comparables à celles des méthodes supervisées.
Certaines des visualisations de l'article sont les suivantes :
À l'heure où de nombreux constructeurs automobiles tentent de supprimer les capteurs LiDAR, comment faire bon usage de milliers d'images non étiquetées les données constituent un sujet important. Et OccNeRF nous a apporté une tentative précieuse.
Lien original : https://mp.weixin.qq.com/s/UiYEeauAGVtT0c5SB2tHEA
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Écrit ci-dessus et compréhension personnelle de l'auteur Le Gaussiansplatting tridimensionnel (3DGS) est une technologie transformatrice qui a émergé dans les domaines des champs de rayonnement explicites et de l'infographie ces dernières années. Cette méthode innovante se caractérise par l’utilisation de millions de gaussiennes 3D, ce qui est très différent de la méthode du champ de rayonnement neuronal (NeRF), qui utilise principalement un modèle implicite basé sur les coordonnées pour mapper les coordonnées spatiales aux valeurs des pixels. Avec sa représentation explicite de scènes et ses algorithmes de rendu différenciables, 3DGS garantit non seulement des capacités de rendu en temps réel, mais introduit également un niveau de contrôle et d'édition de scène sans précédent. Cela positionne 3DGS comme un révolutionnaire potentiel pour la reconstruction et la représentation 3D de nouvelle génération. À cette fin, nous fournissons pour la première fois un aperçu systématique des derniers développements et préoccupations dans le domaine du 3DGS.

Hier, lors de l'entretien, on m'a demandé si j'avais posé des questions à longue traîne, j'ai donc pensé faire un bref résumé. Le problème à longue traîne de la conduite autonome fait référence aux cas extrêmes dans les véhicules autonomes, c'est-à-dire à des scénarios possibles avec une faible probabilité d'occurrence. Le problème perçu de la longue traîne est l’une des principales raisons limitant actuellement le domaine de conception opérationnelle des véhicules autonomes intelligents à véhicule unique. L'architecture sous-jacente et la plupart des problèmes techniques de la conduite autonome ont été résolus, et les 5 % restants des problèmes à longue traîne sont progressivement devenus la clé pour restreindre le développement de la conduite autonome. Ces problèmes incluent une variété de scénarios fragmentés, de situations extrêmes et de comportements humains imprévisibles. La « longue traîne » des scénarios limites dans la conduite autonome fait référence aux cas limites dans les véhicules autonomes (VA). Les cas limites sont des scénarios possibles avec une faible probabilité d'occurrence. ces événements rares

Écrit ci-dessus et compréhension personnelle de l'auteur : À l'heure actuelle, dans l'ensemble du système de conduite autonome, le module de perception joue un rôle essentiel. Le véhicule autonome roulant sur la route ne peut obtenir des résultats de perception précis que via le module de perception en aval. dans le système de conduite autonome, prend des jugements et des décisions comportementales opportuns et corrects. Actuellement, les voitures dotées de fonctions de conduite autonome sont généralement équipées d'une variété de capteurs d'informations de données, notamment des capteurs de caméra à vision panoramique, des capteurs lidar et des capteurs radar à ondes millimétriques pour collecter des informations selon différentes modalités afin d'accomplir des tâches de perception précises. L'algorithme de perception BEV basé sur la vision pure est privilégié par l'industrie en raison de son faible coût matériel et de sa facilité de déploiement, et ses résultats peuvent être facilement appliqués à diverses tâches en aval.

0. Écrit à l'avant&& Compréhension personnelle que les systèmes de conduite autonome s'appuient sur des technologies avancées de perception, de prise de décision et de contrôle, en utilisant divers capteurs (tels que caméras, lidar, radar, etc.) pour percevoir l'environnement et en utilisant des algorithmes et des modèles pour une analyse et une prise de décision en temps réel. Cela permet aux véhicules de reconnaître les panneaux de signalisation, de détecter et de suivre d'autres véhicules, de prédire le comportement des piétons, etc., permettant ainsi de fonctionner en toute sécurité et de s'adapter à des environnements de circulation complexes. Cette technologie attire actuellement une grande attention et est considérée comme un domaine de développement important pour l'avenir des transports. . un. Mais ce qui rend la conduite autonome difficile, c'est de trouver comment faire comprendre à la voiture ce qui se passe autour d'elle. Cela nécessite que l'algorithme de détection d'objets tridimensionnels du système de conduite autonome puisse percevoir et décrire avec précision les objets dans l'environnement, y compris leur emplacement,

La prédiction de trajectoire joue un rôle important dans la conduite autonome. La prédiction de trajectoire de conduite autonome fait référence à la prédiction de la trajectoire de conduite future du véhicule en analysant diverses données pendant le processus de conduite du véhicule. En tant que module central de la conduite autonome, la qualité de la prédiction de trajectoire est cruciale pour le contrôle de la planification en aval. La tâche de prédiction de trajectoire dispose d'une riche pile technologique et nécessite une connaissance de la perception dynamique/statique de la conduite autonome, des cartes de haute précision, des lignes de voie, des compétences en architecture de réseau neuronal (CNN&GNN&Transformer), etc. Il est très difficile de démarrer ! De nombreux fans espèrent se lancer dans la prédiction de trajectoire le plus tôt possible et éviter les pièges. Aujourd'hui, je vais faire le point sur quelques problèmes courants et des méthodes d'apprentissage introductives pour la prédiction de trajectoire ! Connaissances introductives 1. Existe-t-il un ordre d'entrée pour les épreuves de prévisualisation ? R : Regardez d’abord l’enquête, p

Titre original : SIMPL : ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving Lien article : https://arxiv.org/pdf/2402.02519.pdf Lien code : https://github.com/HKUST-Aerial-Robotics/SIMPL Affiliation de l'auteur : Université des sciences de Hong Kong et technologie Idée DJI Paper : cet article propose une base de référence de prédiction de mouvement (SIMPL) simple et efficace pour les véhicules autonomes. Par rapport au cent agent traditionnel

Écrit à l'avant et point de départ Le paradigme de bout en bout utilise un cadre unifié pour réaliser plusieurs tâches dans les systèmes de conduite autonome. Malgré la simplicité et la clarté de ce paradigme, les performances des méthodes de conduite autonome de bout en bout sur les sous-tâches sont encore loin derrière les méthodes à tâche unique. Dans le même temps, les fonctionnalités de vue à vol d'oiseau (BEV) denses, largement utilisées dans les méthodes de bout en bout précédentes, rendent difficile l'adaptation à davantage de modalités ou de tâches. Un paradigme de conduite autonome de bout en bout (SparseAD) centré sur la recherche clairsemée est proposé ici, dans lequel la recherche clairsemée représente entièrement l'ensemble du scénario de conduite, y compris l'espace, le temps et les tâches, sans aucune représentation BEV dense. Plus précisément, une architecture clairsemée unifiée est conçue pour la connaissance des tâches, notamment la détection, le suivi et la cartographie en ligne. De plus, lourd

Au cours du mois dernier, pour des raisons bien connues, j'ai eu des échanges très intensifs avec divers professeurs et camarades de classe du secteur. Un sujet inévitable dans l'échange est naturellement le populaire Tesla FSDV12 de bout en bout. Je voudrais profiter de cette occasion pour trier certaines de mes pensées et opinions en ce moment pour votre référence et votre discussion. Comment définir un système de conduite autonome de bout en bout et quels problèmes devraient être résolus de bout en bout ? Selon la définition la plus traditionnelle, un système de bout en bout fait référence à un système qui saisit les informations brutes des capteurs et génère directement les variables pertinentes pour la tâche. Par exemple, en reconnaissance d'images, CNN peut être appelé de bout en bout par rapport à la méthode traditionnelle d'extraction de caractéristiques + classificateur. Dans les tâches de conduite autonome, saisir les données de divers capteurs (caméra/LiDAR
