SurroundOcc : grille d'occupation Surround 3D, nouveau SOTA !-IA-php.cn

Table des matières

Déploiement

Orientations futures

Maison

Périphériques technologiques

SurroundOcc : grille d'occupation Surround 3D, nouveau SOTA !

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Sep 18, 2023 pm 08:25 PM

技术自动驾驶

Dans ce travail, nous avons construit un ensemble de données raster d'occupation dense à partir de nuages de points multi-trames et conçu un réseau raster d'occupation tridimensionnel basé sur la structure Unet 2D-3D basée sur un transformateur. Nous sommes honorés que notre article ait été inclus dans ICCV 2023. Le code du projet est désormais open source et tout le monde est invité à l'essayer.

SurroundOcc : grille doccupation Surround 3D, nouveau SOTA !

arXiv : https://arxiv.org/pdf/2303.09551.pdf

Code : https://github.com/weiyithu/SurroundOcc

Lien de la page d'accueil : https://weiyithu.github.io/ SurroundOcc/

Je cherchais un travail comme un fou ces derniers temps, et je n'ai pas eu le temps d'écrire. Il m'est arrivé de soumettre récemment un document prêt à photographier, j'ai pensé qu'il serait préférable d'écrire un. Résumé de Zhihu. D’ailleurs, l’introduction de l’article est déjà bien rédigée par différents comptes publics, et grâce à leur publicité, vous pouvez directement faire référence au Cœur de la Conduite Autonome : nuScenes SOTA ! SurroundOcc : Réseau de prédiction d'occupation 3D purement visuel pour la conduite autonome (Tsinghua & Tianda). En général, la contribution est divisée en deux parties. L'une explique comment utiliser des nuages de points lidar multi-trames pour créer un ensemble de données d'occupation dense, et l'autre explique comment concevoir un réseau pour la prévision d'occupation. En fait, le contenu des deux parties est relativement simple et facile à comprendre. Si vous ne comprenez rien, vous pouvez toujours me le demander. Donc, dans cet article, je veux parler d'autre chose que de la thèse. L'une est de savoir comment améliorer la solution actuelle pour la rendre plus facile à déployer, et l'autre est l'orientation future du développement.

SurroundOcc : grille doccupation Surround 3D, nouveau SOTA !

Déploiement

SurroundOcc : grille doccupation Surround 3D, nouveau SOTA !

La facilité de déploiement d'un réseau dépend principalement de l'existence ou non d'opérateurs difficiles à mettre en œuvre du côté de la carte. Les deux opérateurs les plus difficiles de la méthode SurroundOcc sont le transformateur. couche et convolution 3D.

La fonction principale du transformateur est de convertir des fonctionnalités 2D en espace 3D. En fait, cette partie peut également être implémentée en utilisant LSS, Homography ou même mlp, cette partie du réseau peut donc être modifiée en fonction de la solution implémentée. Mais pour autant que je sache, la solution du transformateur n'est pas sensible à l'étalonnage et offre de meilleures performances parmi plusieurs solutions. Il est recommandé à ceux qui ont la capacité de mettre en œuvre le déploiement du transformateur d'utiliser la solution d'origine.

Pour la convolution 3D, vous pouvez la remplacer par une convolution 2D. Ici, vous devez remodeler la caractéristique 3D d'origine de (C, H, W, Z) en caractéristique 2D de (C* Z, H, W), puis Vous pouvez utiliser la convolution 2D pour l'extraction de caractéristiques. Dans l'étape finale de prédiction d'occupation, remodelez-la en (C, H, W, Z) et effectuez la supervision. D'un autre côté, sauter la connexion consomme plus de mémoire vidéo en raison de sa résolution plus grande. Lors du déploiement, il peut être supprimé et seule la couche de résolution minimale sera laissée. Notre expérience a révélé que ces deux opérations de convolution 3D auront des points de chute sur les nuscènes, mais l'échelle de l'ensemble de données de l'industrie est beaucoup plus grande que celle des nuscènes, et parfois certaines conclusions changeront, et les points de chute devraient être inférieurs, voire nuls.

SurroundOcc : grille doccupation Surround 3D, nouveau SOTA !

En termes de construction d'ensembles de données, l'étape la plus longue est la reconstruction de Poisson. Nous utilisons l'ensemble de données nuscenes, qui utilise un lidar à 32 lignes pour la collecte. Même en utilisant la technologie d’assemblage multi-images, nous avons constaté qu’il existe encore de nombreux trous dans le nuage de points assemblé. Nous avons donc utilisé la reconstruction de Poisson pour combler ces trous. Cependant, de nombreux nuages de points lidar actuellement utilisés dans l’industrie sont relativement denses, comme M1, RS128, etc. Par conséquent, dans ce cas, l'étape de reconstruction de Poisson peut être omise pour accélérer la construction de l'ensemble de données

D'autre part, SurroundOcc utilise le cadre de détection de cible tridimensionnel annoté en nuscènes pour séparer les scènes statiques et les objets dynamiques. Cependant, dans l'application réelle, l'autolabel, qui est un grand modèle tridimensionnel de détection et de suivi de cible, peut être utilisé pour obtenir le cadre de détection de chaque objet dans la séquence entière. Par rapport aux étiquettes annotées manuellement, les résultats produits en utilisant de grands modèles comporteront certainement des erreurs. La manifestation la plus directe est le phénomène d'image fantôme après l'assemblage de plusieurs images d'objets. Mais en fait, l'occupation n'a pas d'exigences aussi élevées en matière de forme des objets. Tant que la position du cadre de détection est relativement précise, elle peut répondre aux exigences.

Orientations futures

La méthode actuelle repose toujours sur le lidar pour fournir des signaux de surveillance d'occupation, mais de nombreuses voitures, en particulier certaines voitures à conduite assistée de bas niveau, ne disposent pas de lidar. Ces voitures peuvent retransmettre une grande quantité de données RVB via. mode ombre. , alors une orientation future est de savoir si nous pouvons utiliser le RVB uniquement pour l'apprentissage auto-supervisé. Une solution naturelle consiste à utiliser NeRF pour la supervision. Plus précisément, la partie dorsale avant reste inchangée pour obtenir une prédiction d'occupation, puis le rendu voxel est utilisé pour obtenir le RVB depuis chaque perspective de caméra, et la perte se fait avec la vraie valeur RVB. l’ensemble de formation. Créer un signal de supervision. Mais il est dommage que cette méthode simple n'ait pas très bien fonctionné lorsque nous l'avons essayée. La raison possible est que la portée de la scène extérieure est trop large et que le nerf ne pourra peut-être pas la retenir, mais c'est également possible. que nous ne l'avons pas ajusté correctement. Vous pouvez réessayer.

L'autre direction est le timing et le flux d'occupation. En fait, le flux d'occupation est bien plus utile pour les tâches en aval que l'occupation sur une seule image. Pendant l'ICCV, nous n'avons pas eu le temps de compiler l'ensemble des données sur les flux d'occupation, et lorsque nous avons publié le document, nous avons dû comparer de nombreuses références de flux, nous n'avons donc pas travaillé dessus à ce moment-là. Pour les réseaux de chronométrage, vous pouvez vous référer aux solutions de BEVFormer et BEVDet4D, relativement simples et efficaces. La partie difficile reste l'ensemble de données de flux. Les objets généraux peuvent être calculés à l'aide du cadre de séquence de détection de cible tridimensionnelle, mais les objets de forme spéciale tels que les petits sacs en plastique pour animaux peuvent devoir être annotés à l'aide de la méthode de flux de scène.

SurroundOcc : grille doccupation Surround 3D, nouveau SOTA !

Le contenu qui doit être réécrit est : Lien original : https://mp.weixin.qq.com/s/_crun60B_lOz6_maR0Wyug

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Comment déverrouiller tout dans Myrise

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7480

Tutoriel CakePHP

1377

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Pourquoi le Gaussian Splatting est-il si populaire dans la conduite autonome que le NeRF commence à être abandonné ? Jan 17, 2024 pm 02:57 PM

Écrit ci-dessus et compréhension personnelle de l'auteur Le Gaussiansplatting tridimensionnel (3DGS) est une technologie transformatrice qui a émergé dans les domaines des champs de rayonnement explicites et de l'infographie ces dernières années. Cette méthode innovante se caractérise par l’utilisation de millions de gaussiennes 3D, ce qui est très différent de la méthode du champ de rayonnement neuronal (NeRF), qui utilise principalement un modèle implicite basé sur les coordonnées pour mapper les coordonnées spatiales aux valeurs des pixels. Avec sa représentation explicite de scènes et ses algorithmes de rendu différenciables, 3DGS garantit non seulement des capacités de rendu en temps réel, mais introduit également un niveau de contrôle et d'édition de scène sans précédent. Cela positionne 3DGS comme un révolutionnaire potentiel pour la reconstruction et la représentation 3D de nouvelle génération. À cette fin, nous fournissons pour la première fois un aperçu systématique des derniers développements et préoccupations dans le domaine du 3DGS.

Comment résoudre le problème de la longue traîne dans les scénarios de conduite autonome ? Jun 02, 2024 pm 02:44 PM

Hier, lors de l'entretien, on m'a demandé si j'avais posé des questions à longue traîne, j'ai donc pensé faire un bref résumé. Le problème à longue traîne de la conduite autonome fait référence aux cas extrêmes dans les véhicules autonomes, c'est-à-dire à des scénarios possibles avec une faible probabilité d'occurrence. Le problème perçu de la longue traîne est l’une des principales raisons limitant actuellement le domaine de conception opérationnelle des véhicules autonomes intelligents à véhicule unique. L'architecture sous-jacente et la plupart des problèmes techniques de la conduite autonome ont été résolus, et les 5 % restants des problèmes à longue traîne sont progressivement devenus la clé pour restreindre le développement de la conduite autonome. Ces problèmes incluent une variété de scénarios fragmentés, de situations extrêmes et de comportements humains imprévisibles. La « longue traîne » des scénarios limites dans la conduite autonome fait référence aux cas limites dans les véhicules autonomes (VA). Les cas limites sont des scénarios possibles avec une faible probabilité d'occurrence. ces événements rares

Choisir une caméra ou un lidar ? Une étude récente sur la détection robuste d'objets 3D Jan 26, 2024 am 11:18 AM

0. Écrit à l'avant&& Compréhension personnelle que les systèmes de conduite autonome s'appuient sur des technologies avancées de perception, de prise de décision et de contrôle, en utilisant divers capteurs (tels que caméras, lidar, radar, etc.) pour percevoir l'environnement et en utilisant des algorithmes et des modèles pour une analyse et une prise de décision en temps réel. Cela permet aux véhicules de reconnaître les panneaux de signalisation, de détecter et de suivre d'autres véhicules, de prédire le comportement des piétons, etc., permettant ainsi de fonctionner en toute sécurité et de s'adapter à des environnements de circulation complexes. Cette technologie attire actuellement une grande attention et est considérée comme un domaine de développement important pour l'avenir des transports. . un. Mais ce qui rend la conduite autonome difficile, c'est de trouver comment faire comprendre à la voiture ce qui se passe autour d'elle. Cela nécessite que l'algorithme de détection d'objets tridimensionnels du système de conduite autonome puisse percevoir et décrire avec précision les objets dans l'environnement, y compris leur emplacement,

Le papier Stable Diffusion 3 est enfin publié, et les détails architecturaux sont révélés. Cela aidera-t-il à reproduire Sora ? Mar 06, 2024 pm 05:34 PM

L'article de StableDiffusion3 est enfin là ! Ce modèle est sorti il y a deux semaines et utilise la même architecture DiT (DiffusionTransformer) que Sora. Il a fait beaucoup de bruit dès sa sortie. Par rapport à la version précédente, la qualité des images générées par StableDiffusion3 a été considérablement améliorée. Il prend désormais en charge les invites multithèmes, et l'effet d'écriture de texte a également été amélioré et les caractères tronqués n'apparaissent plus. StabilityAI a souligné que StableDiffusion3 est une série de modèles avec des tailles de paramètres allant de 800M à 8B. Cette plage de paramètres signifie que le modèle peut être exécuté directement sur de nombreux appareils portables, réduisant ainsi considérablement l'utilisation de l'IA.

Cet article vous suffit pour en savoir plus sur la conduite autonome et la prédiction de trajectoire ! Feb 28, 2024 pm 07:20 PM

La prédiction de trajectoire joue un rôle important dans la conduite autonome. La prédiction de trajectoire de conduite autonome fait référence à la prédiction de la trajectoire de conduite future du véhicule en analysant diverses données pendant le processus de conduite du véhicule. En tant que module central de la conduite autonome, la qualité de la prédiction de trajectoire est cruciale pour le contrôle de la planification en aval. La tâche de prédiction de trajectoire dispose d'une riche pile technologique et nécessite une connaissance de la perception dynamique/statique de la conduite autonome, des cartes de haute précision, des lignes de voie, des compétences en architecture de réseau neuronal (CNN&GNN&Transformer), etc. Il est très difficile de démarrer ! De nombreux fans espèrent se lancer dans la prédiction de trajectoire le plus tôt possible et éviter les pièges. Aujourd'hui, je vais faire le point sur quelques problèmes courants et des méthodes d'apprentissage introductives pour la prédiction de trajectoire ! Connaissances introductives 1. Existe-t-il un ordre d'entrée pour les épreuves de prévisualisation ? R : Regardez d’abord l’enquête, p

SIMPL : un benchmark de prédiction de mouvement multi-agents simple et efficace pour la conduite autonome Feb 20, 2024 am 11:48 AM

Titre original : SIMPL : ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving Lien article : https://arxiv.org/pdf/2402.02519.pdf Lien code : https://github.com/HKUST-Aerial-Robotics/SIMPL Affiliation de l'auteur : Université des sciences de Hong Kong et technologie Idée DJI Paper : cet article propose une base de référence de prédiction de mouvement (SIMPL) simple et efficace pour les véhicules autonomes. Par rapport au cent agent traditionnel

NuScenes dernier SOTA SparseAD : les requêtes clairsemées contribuent à une conduite autonome efficace de bout en bout ! Apr 17, 2024 pm 06:22 PM

Écrit à l'avant et point de départ Le paradigme de bout en bout utilise un cadre unifié pour réaliser plusieurs tâches dans les systèmes de conduite autonome. Malgré la simplicité et la clarté de ce paradigme, les performances des méthodes de conduite autonome de bout en bout sur les sous-tâches sont encore loin derrière les méthodes à tâche unique. Dans le même temps, les fonctionnalités de vue à vol d'oiseau (BEV) denses, largement utilisées dans les méthodes de bout en bout précédentes, rendent difficile l'adaptation à davantage de modalités ou de tâches. Un paradigme de conduite autonome de bout en bout (SparseAD) centré sur la recherche clairsemée est proposé ici, dans lequel la recherche clairsemée représente entièrement l'ensemble du scénario de conduite, y compris l'espace, le temps et les tâches, sans aucune représentation BEV dense. Plus précisément, une architecture clairsemée unifiée est conçue pour la connaissance des tâches, notamment la détection, le suivi et la cartographie en ligne. De plus, lourd

Parlons des systèmes de conduite autonome de bout en bout et de nouvelle génération, ainsi que de quelques malentendus sur la conduite autonome de bout en bout ? Apr 15, 2024 pm 04:13 PM

Au cours du mois dernier, pour des raisons bien connues, j'ai eu des échanges très intensifs avec divers professeurs et camarades de classe du secteur. Un sujet inévitable dans l'échange est naturellement le populaire Tesla FSDV12 de bout en bout. Je voudrais profiter de cette occasion pour trier certaines de mes pensées et opinions en ce moment pour votre référence et votre discussion. Comment définir un système de conduite autonome de bout en bout et quels problèmes devraient être résolus de bout en bout ? Selon la définition la plus traditionnelle, un système de bout en bout fait référence à un système qui saisit les informations brutes des capteurs et génère directement les variables pertinentes pour la tâche. Par exemple, en reconnaissance d'images, CNN peut être appelé de bout en bout par rapport à la méthode traditionnelle d'extraction de caractéristiques + classificateur. Dans les tâches de conduite autonome, saisir les données de divers capteurs (caméra/LiDAR

See all articles