Table des matières
Interprétation générale, interprétation technique
Recherche de revue de la littérature BEVPercption
Ensembles de données adaptés aux modèles de détection BEV
Boîte à outils - Boîte à outils de perception BEV
Résumé
Maison Périphériques technologiques IA Des articles au code, de la recherche de pointe à la mise en œuvre industrielle, comprenez parfaitement la perception du BEV

Des articles au code, de la recherche de pointe à la mise en œuvre industrielle, comprenez parfaitement la perception du BEV

Apr 13, 2023 pm 10:31 PM
自动驾驶

Des articles au code, de la recherche de pointe à la mise en œuvre industrielle, comprenez parfaitement la perception du BEV

BEV Qu'est-ce que la perception exactement ? Quels sont les aspects de la perception du BEV auxquels les cercles académiques et industriels de la conduite autonome prêtent attention ? Cet article vous révélera la réponse.

Dans le domaine de la conduite autonome, permettre aux modèles de perception d'apprendre de puissantes représentations en vue à vol d'oiseau (BEV) est une tendance et a attiré une large attention de l'industrie et du monde universitaire. Par rapport à la plupart des modèles précédents dans le domaine de la conduite autonome qui reposent sur l'exécution de tâches telles que la détection, la segmentation et le suivi en vue de face ou en perspective, la représentation Bird's Eye View (BEV) permet au modèle de mieux identifier les véhicules obstrués et a Facilite le développement et le déploiement des modules ultérieurs (par exemple, planification, contrôle).

On peut constater que la recherche sur la perception du BEV a un impact potentiel énorme sur le domaine de la conduite autonome et mérite une attention et un investissement à long terme de la part du monde universitaire et de l'industrie. Alors, qu'est-ce que la perception du BEV exactement ? Quel est le contenu de la perception du BEV auquel les leaders universitaires et industriels de la conduite autonome prêtent attention ? Cet article vous révélera la réponse à travers l'BEVPerception Survey.

BEVPerception Survey est un article collaboratif entre l'équipe Autonomous Driving OpenDriveLab du Shanghai Artificial Intelligence Laboratory et SenseTime Research Institute"Plongez dans les démons de la perception à vol d'oiseau : une revue , Évaluation et recette" 》La méthode pratique de présentation des outils est divisée en deux parties : la dernière recherche documentaire basée sur BEVPercption et la boîte à outils open source de perception BEV basée sur PyTorch.

Des articles au code, de la recherche de pointe à la mise en œuvre industrielle, comprenez parfaitement la perception du BEV

  • Adresse papier : https://arxiv.org/abs/2209.05324
  • Adresse du projet : https://github.com/OpenPerceptionX/BEVPerception-Survey-Re e

Interprétation générale, interprétation technique

Enquête BEVPerception La dernière recherche de revue de la littérature comprend principalement trois parties : Caméra BEV, lidar BEV et fusion BEV. La caméra BEV représente un algorithme axé uniquement sur la vision ou centré sur la vision pour la détection ou la segmentation d'objets 3D à partir de plusieurs caméras environnantes. Le lidar BEV décrit la tâche de détection ou de segmentation de l'entrée de nuage de points. La fusion BEV décrit la tâche de détection ou de segmentation à partir de plusieurs capteurs. Mécanismes de fusion d'entrée ; tels que caméras, lidar, systèmes de navigation globaux, odométrie, cartes HD, bus CAN, etc.

BEV Perception Toolbox fournit une plate-forme de détection d'objets 3D basée sur des caméras BEV et fournit une plate-forme expérimentale sur l'ensemble de données Waymo, qui peut réaliser des tutoriels manuels et des expériences sur des ensembles de données à petite échelle.

Des articles au code, de la recherche de pointe à la mise en œuvre industrielle, comprenez parfaitement la perception du BEV

Figure 1 : Cadre d'enquête BEVPerception

Plus précisément, la caméra BEV représente un algorithme de détection ou de segmentation d'objets 3D à partir de plusieurs caméras environnantes. Le lidar BEV représente un algorithme utilisant un nuage de points comme entrée pour compléter l'analyse ; tâche de détection ou de segmentation ; la fusion BEV utilise la sortie de plusieurs capteurs comme entrée, tels que des caméras, LiDAR, GNSS, odomètre, HD-Map, CAN-bus, etc.

Recherche de revue de la littérature BEVPercption

Caméra BEV

La perception de la caméra BEV comprend trois parties : un extracteur de caractéristiques 2D, une transformation de vue et un décodeur 3D. La figure ci-dessous montre l'organigramme de perception de la caméra BEV. Dans la transformation de vue, il existe deux façons de coder les informations 3D : l'une consiste à prédire les informations de profondeur à partir d'entités 2D ; l'autre consiste à échantillonner des entités 2D à partir de l'espace 3D.


Des articles au code, de la recherche de pointe à la mise en œuvre industrielle, comprenez parfaitement la perception du BEV

Figure 2 : Organigramme de perception de la caméra BEV

Pour l'Extracteur de fonctionnalités 2D, il y a beaucoup d'expérience dans la tâche de perception 2D qui peut être empruntée dans la tâche de perception 3D, comme le forme de formation à l’intervention principale.

Le module de conversion de vue est un aspect très différent du système de perception 2D. Comme le montre la figure ci-dessus, il existe généralement deux manières d'effectuer une transformation de vue : l'une est la transformation de l'espace 3D en espace 2D, l'autre est la transformation de l'espace 2D en espace 3D. Ces deux méthodes de transformation utilisent soit l'espace 3D. connaissance préalable de la physique du système ou utilisation d'informations 3D supplémentaires pour la supervision. Il convient de noter que toutes les méthodes de perception 3D ne disposent pas de modules de transformation de vue. Par exemple, certaines méthodes détectent les objets dans l'espace 3D directement à partir des entités dans l'espace 2D.

Décodeur 3D reçoit des fonctionnalités dans l'espace 2D/3D et génère des résultats de perception 3D. La plupart des décodeurs 3D sont conçus à partir de modèles de perception basés sur LiDAR. Ces méthodes effectuent une détection dans l'espace BEV, mais il existe encore des décodeurs 3D qui exploitent les fonctionnalités de l'espace 2D et régressent directement la localisation des objets 3D.

BEV LiDAR

BEV Le processus commun de perception LiDAR implique principalement deux branches pour convertir les données de nuages ​​de points en représentation BEV. La figure ci-dessous montre l'organigramme de détection lidar BEV. La branche supérieure extrait les caractéristiques du nuage de points dans l'espace 3D pour fournir des résultats de détection plus précis. La branche inférieure extrait les fonctionnalités BEV dans l'espace 2D, offrant ainsi un réseau plus efficace. En plus des méthodes basées sur des points qui fonctionnent sur des nuages ​​de points bruts, les méthodes basées sur les voxels voxelisent les points dans des grilles discrètes, offrant ainsi une représentation plus efficace en discrétisant les coordonnées 3D continues. Basée sur une représentation de voxels discrets, la convolution 3D ou la convolution clairsemée 3D peuvent être utilisées pour extraire des caractéristiques de nuages ​​de points.

Des articles au code, de la recherche de pointe à la mise en œuvre industrielle, comprenez parfaitement la perception du BEV

Figure 3 : Organigramme de détection lidar BEV

fusion BEV

L'algorithme de fusion de détection BEV comporte deux méthodes : la détection PV et la détection BEV, adaptées à milieu universitaire et industriel . La figure ci-dessous montre une comparaison des organigrammes de détection PV et de détection BEV. La principale différence entre les deux réside dans le module de conversion et de fusion 2D en 3D. Dans l'organigramme compatible PV, les résultats de différents algorithmes sont d'abord convertis en espace 3D, puis fusionnés à l'aide de connaissances préalables ou de règles conçues manuellement. Dans l'organigramme de perception BEV, la carte des caractéristiques PV sera convertie en perspective BEV, puis fusionnée dans l'espace BEV pour obtenir le résultat final, maximisant ainsi la conservation des informations sur les caractéristiques d'origine et évitant une conception manuelle excessive.

Des articles au code, de la recherche de pointe à la mise en œuvre industrielle, comprenez parfaitement la perception du BEV

Figure 4 : Organigramme de détection PV (à gauche) et de détection BEV (à droite)

Ensembles de données adaptés aux modèles de détection BEV

Il existe de nombreux ensembles de données pour les tâches de détection BEV. Généralement, un ensemble de données se compose de plusieurs scènes, et chaque scène a une longueur différente dans différents ensembles de données. Le tableau suivant résume les ensembles de données couramment utilisés dans la communauté universitaire. Nous pouvons voir que l'ensemble de données Waymo contient des scènes plus diversifiées et des annotations de boîte de détection 3D plus riches que les autres ensembles de données.

Des articles au code, de la recherche de pointe à la mise en œuvre industrielle, comprenez parfaitement la perception du BEV

Tableau 1 : Aperçu des ensembles de données de détection BEV

Cependant, il n'existe actuellement aucun logiciel pour la tâche de détection BEV développé par Waymo rendu public dans la communauté universitaire. Par conséquent, nous avons choisi de développer sur la base de l'ensemble de données Waymo, dans l'espoir de promouvoir le développement de tâches de perception BEV sur l'ensemble de données Waymo.

Boîte à outils - Boîte à outils de perception BEV

BEVFormer est une méthode de perception BEV couramment utilisée. Elle utilise un transformateur spatio-temporel pour convertir les caractéristiques extraites par le réseau fédérateur à partir d'une entrée multi-vues en caractéristiques BEV, puis entre les caractéristiques BEV dans la détection. tête pour obtenir les résultats finaux des tests. BEVFormer possède deux fonctionnalités : il permet une conversion précise des fonctionnalités d'image 2D en fonctionnalités 3D et peut appliquer les fonctionnalités BEV qu'il extrait à différentes têtes de détection. Nous avons encore amélioré la qualité de conversion de vue et les performances de détection finale de BEVFormer grâce à une série de méthodes.

Après avoir remporté la première placeCVPR 2022 Waymo Challenge avec BEVFormer++, nous avons lancé Toolbox - BEV Perception Toolbox, en fournissant un ensemble complet d'outils de traitement de données Waymo Open Dataset faciles à utiliser, Celui-ci intègre une série de méthodes qui peuvent améliorer considérablement les performances du modèle (y compris, mais sans s'y limiter, l'amélioration des données, les têtes de détection, les fonctions de perte, l'intégration de modèles, etc.), et est compatible avec les frameworks open source largement utilisés dans le domaine, tels que mmdetection3d. et détecteurron2. Par rapport à l'ensemble de données de base Waymo, la boîte à outils de perception BEV optimise et améliore les compétences d'utilisation pour différents types de développeurs. La figure ci-dessous montre un exemple d'utilisation de la boîte à outils de sensibilisation BEV basée sur l'ensemble de données Waymo.

Des articles au code, de la recherche de pointe à la mise en œuvre industrielle, comprenez parfaitement la perception du BEV

Figure 5 : Exemple d'utilisation de la boîte à outils basé sur l'ensemble de données Waymo

Résumé

  • L'enquête BEVPerception résume la situation globale de la recherche sur la technologie de perception BEV au cours des dernières années, y compris l'élaboration de concepts de haut niveau et une discussion plus approfondie et détaillée. Une analyse complète de la littérature relative à la détection BEV couvre des questions essentielles telles que l'estimation de la profondeur, la transformation de vue, la fusion de capteurs et l'adaptation de domaine, et fournit une explication plus approfondie de l'application de la détection BEV dans les systèmes industriels.
  • En plus des contributions théoriques, BEVPerception Survey fournit également une boîte à outils très pratique pour améliorer les performances de détection d'objets en vue à vol d'oiseau 3D (BEV) par caméra, y compris une série de stratégies d'amélioration des données de formation et une conception efficace de l'encodeur, fonction de perte conception, stratégies d'amélioration des données de test et d'intégration de modèles, etc., ainsi que la mise en œuvre de ces techniques sur l'ensemble de données Waymo. Nous espérons aider davantage de chercheurs à réaliser le principe « utiliser et prendre » et offrir plus de commodité aux chercheurs du secteur de la conduite autonome.

Nous espérons que BEVPerception Survey aidera non seulement les utilisateurs à utiliser facilement les modèles de perception BEV hautes performances, mais deviendra également un bon point de départ pour les novices pour se lancer dans les modèles de perception BEV. Nous nous engageons à repousser les frontières de la recherche et du développement dans le domaine de la conduite autonome et sommes impatients de partager nos points de vue et d'échanger des discussions avec la communauté universitaire pour explorer en permanence le potentiel d'application de la recherche liée à la conduite autonome dans le monde réel.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Comment déverrouiller tout dans Myrise
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Pourquoi le Gaussian Splatting est-il si populaire dans la conduite autonome que le NeRF commence à être abandonné ? Pourquoi le Gaussian Splatting est-il si populaire dans la conduite autonome que le NeRF commence à être abandonné ? Jan 17, 2024 pm 02:57 PM

Écrit ci-dessus et compréhension personnelle de l'auteur Le Gaussiansplatting tridimensionnel (3DGS) est une technologie transformatrice qui a émergé dans les domaines des champs de rayonnement explicites et de l'infographie ces dernières années. Cette méthode innovante se caractérise par l’utilisation de millions de gaussiennes 3D, ce qui est très différent de la méthode du champ de rayonnement neuronal (NeRF), qui utilise principalement un modèle implicite basé sur les coordonnées pour mapper les coordonnées spatiales aux valeurs des pixels. Avec sa représentation explicite de scènes et ses algorithmes de rendu différenciables, 3DGS garantit non seulement des capacités de rendu en temps réel, mais introduit également un niveau de contrôle et d'édition de scène sans précédent. Cela positionne 3DGS comme un révolutionnaire potentiel pour la reconstruction et la représentation 3D de nouvelle génération. À cette fin, nous fournissons pour la première fois un aperçu systématique des derniers développements et préoccupations dans le domaine du 3DGS.

Comment résoudre le problème de la longue traîne dans les scénarios de conduite autonome ? Comment résoudre le problème de la longue traîne dans les scénarios de conduite autonome ? Jun 02, 2024 pm 02:44 PM

Hier, lors de l'entretien, on m'a demandé si j'avais posé des questions à longue traîne, j'ai donc pensé faire un bref résumé. Le problème à longue traîne de la conduite autonome fait référence aux cas extrêmes dans les véhicules autonomes, c'est-à-dire à des scénarios possibles avec une faible probabilité d'occurrence. Le problème perçu de la longue traîne est l’une des principales raisons limitant actuellement le domaine de conception opérationnelle des véhicules autonomes intelligents à véhicule unique. L'architecture sous-jacente et la plupart des problèmes techniques de la conduite autonome ont été résolus, et les 5 % restants des problèmes à longue traîne sont progressivement devenus la clé pour restreindre le développement de la conduite autonome. Ces problèmes incluent une variété de scénarios fragmentés, de situations extrêmes et de comportements humains imprévisibles. La « longue traîne » des scénarios limites dans la conduite autonome fait référence aux cas limites dans les véhicules autonomes (VA). Les cas limites sont des scénarios possibles avec une faible probabilité d'occurrence. ces événements rares

Choisir une caméra ou un lidar ? Une étude récente sur la détection robuste d'objets 3D Choisir une caméra ou un lidar ? Une étude récente sur la détection robuste d'objets 3D Jan 26, 2024 am 11:18 AM

0. Écrit à l'avant&& Compréhension personnelle que les systèmes de conduite autonome s'appuient sur des technologies avancées de perception, de prise de décision et de contrôle, en utilisant divers capteurs (tels que caméras, lidar, radar, etc.) pour percevoir l'environnement et en utilisant des algorithmes et des modèles pour une analyse et une prise de décision en temps réel. Cela permet aux véhicules de reconnaître les panneaux de signalisation, de détecter et de suivre d'autres véhicules, de prédire le comportement des piétons, etc., permettant ainsi de fonctionner en toute sécurité et de s'adapter à des environnements de circulation complexes. Cette technologie attire actuellement une grande attention et est considérée comme un domaine de développement important pour l'avenir des transports. . un. Mais ce qui rend la conduite autonome difficile, c'est de trouver comment faire comprendre à la voiture ce qui se passe autour d'elle. Cela nécessite que l'algorithme de détection d'objets tridimensionnels du système de conduite autonome puisse percevoir et décrire avec précision les objets dans l'environnement, y compris leur emplacement,

Avez-vous vraiment maîtrisé la conversion des systèmes de coordonnées ? Des enjeux multi-capteurs indispensables à la conduite autonome Avez-vous vraiment maîtrisé la conversion des systèmes de coordonnées ? Des enjeux multi-capteurs indispensables à la conduite autonome Oct 12, 2023 am 11:21 AM

Le premier article pilote et clé présente principalement plusieurs systèmes de coordonnées couramment utilisés dans la technologie de conduite autonome, et comment compléter la corrélation et la conversion entre eux, et enfin construire un modèle d'environnement unifié. L'objectif ici est de comprendre la conversion du véhicule en corps rigide de caméra (paramètres externes), la conversion de caméra en image (paramètres internes) et la conversion d'image en unité de pixel. La conversion de 3D en 2D aura une distorsion, une traduction, etc. Points clés : Le système de coordonnées du véhicule et le système de coordonnées du corps de la caméra doivent être réécrits : le système de coordonnées planes et le système de coordonnées des pixels Difficulté : la distorsion de l'image doit être prise en compte. La dé-distorsion et l'ajout de distorsion sont compensés sur le plan de l'image. 2. Introduction Il existe quatre systèmes de vision au total : système de coordonnées du plan de pixels (u, v), système de coordonnées d'image (x, y), système de coordonnées de caméra () et système de coordonnées mondiales (). Il existe une relation entre chaque système de coordonnées,

Cet article vous suffit pour en savoir plus sur la conduite autonome et la prédiction de trajectoire ! Cet article vous suffit pour en savoir plus sur la conduite autonome et la prédiction de trajectoire ! Feb 28, 2024 pm 07:20 PM

La prédiction de trajectoire joue un rôle important dans la conduite autonome. La prédiction de trajectoire de conduite autonome fait référence à la prédiction de la trajectoire de conduite future du véhicule en analysant diverses données pendant le processus de conduite du véhicule. En tant que module central de la conduite autonome, la qualité de la prédiction de trajectoire est cruciale pour le contrôle de la planification en aval. La tâche de prédiction de trajectoire dispose d'une riche pile technologique et nécessite une connaissance de la perception dynamique/statique de la conduite autonome, des cartes de haute précision, des lignes de voie, des compétences en architecture de réseau neuronal (CNN&GNN&Transformer), etc. Il est très difficile de démarrer ! De nombreux fans espèrent se lancer dans la prédiction de trajectoire le plus tôt possible et éviter les pièges. Aujourd'hui, je vais faire le point sur quelques problèmes courants et des méthodes d'apprentissage introductives pour la prédiction de trajectoire ! Connaissances introductives 1. Existe-t-il un ordre d'entrée pour les épreuves de prévisualisation ? R : Regardez d’abord l’enquête, p

SIMPL : un benchmark de prédiction de mouvement multi-agents simple et efficace pour la conduite autonome SIMPL : un benchmark de prédiction de mouvement multi-agents simple et efficace pour la conduite autonome Feb 20, 2024 am 11:48 AM

Titre original : SIMPL : ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving Lien article : https://arxiv.org/pdf/2402.02519.pdf Lien code : https://github.com/HKUST-Aerial-Robotics/SIMPL Affiliation de l'auteur : Université des sciences de Hong Kong et technologie Idée DJI Paper : cet article propose une base de référence de prédiction de mouvement (SIMPL) simple et efficace pour les véhicules autonomes. Par rapport au cent agent traditionnel

NuScenes dernier SOTA SparseAD : les requêtes clairsemées contribuent à une conduite autonome efficace de bout en bout ! NuScenes dernier SOTA SparseAD : les requêtes clairsemées contribuent à une conduite autonome efficace de bout en bout ! Apr 17, 2024 pm 06:22 PM

Écrit à l'avant et point de départ Le paradigme de bout en bout utilise un cadre unifié pour réaliser plusieurs tâches dans les systèmes de conduite autonome. Malgré la simplicité et la clarté de ce paradigme, les performances des méthodes de conduite autonome de bout en bout sur les sous-tâches sont encore loin derrière les méthodes à tâche unique. Dans le même temps, les fonctionnalités de vue à vol d'oiseau (BEV) denses, largement utilisées dans les méthodes de bout en bout précédentes, rendent difficile l'adaptation à davantage de modalités ou de tâches. Un paradigme de conduite autonome de bout en bout (SparseAD) centré sur la recherche clairsemée est proposé ici, dans lequel la recherche clairsemée représente entièrement l'ensemble du scénario de conduite, y compris l'espace, le temps et les tâches, sans aucune représentation BEV dense. Plus précisément, une architecture clairsemée unifiée est conçue pour la connaissance des tâches, notamment la détection, le suivi et la cartographie en ligne. De plus, lourd

Parlons des systèmes de conduite autonome de bout en bout et de nouvelle génération, ainsi que de quelques malentendus sur la conduite autonome de bout en bout ? Parlons des systèmes de conduite autonome de bout en bout et de nouvelle génération, ainsi que de quelques malentendus sur la conduite autonome de bout en bout ? Apr 15, 2024 pm 04:13 PM

Au cours du mois dernier, pour des raisons bien connues, j'ai eu des échanges très intensifs avec divers professeurs et camarades de classe du secteur. Un sujet inévitable dans l'échange est naturellement le populaire Tesla FSDV12 de bout en bout. Je voudrais profiter de cette occasion pour trier certaines de mes pensées et opinions en ce moment pour votre référence et votre discussion. Comment définir un système de conduite autonome de bout en bout et quels problèmes devraient être résolus de bout en bout ? Selon la définition la plus traditionnelle, un système de bout en bout fait référence à un système qui saisit les informations brutes des capteurs et génère directement les variables pertinentes pour la tâche. Par exemple, en reconnaissance d'images, CNN peut être appelé de bout en bout par rapport à la méthode traditionnelle d'extraction de caractéristiques + classificateur. Dans les tâches de conduite autonome, saisir les données de divers capteurs (caméra/LiDAR

See all articles