


Les performances de RV Fusion sont incroyables ! RCBEVDet : Le radar a aussi du ressort, le dernier SOTA !
Écrit auparavant et compréhension personnelle de l'auteur
Le principal problème sur lequel se concentre ce document de discussion est l'application de la technologie de détection de cibles 3D dans le processus de conduite autonome. Bien que le développement de la technologie des caméras de vision environnementale fournisse des informations sémantiques haute résolution pour la détection d'objets 3D, cette méthode est limitée par des problèmes tels que l'incapacité de capturer avec précision les informations de profondeur et les mauvaises performances par mauvais temps ou dans des conditions de faible luminosité. En réponse à ce problème, la discussion a proposé une nouvelle méthode de détection de cible 3D multimode, RCBEVDet, qui combine des caméras à vision panoramique et des capteurs radar économiques à ondes millimétriques. Cette méthode fournit des informations sémantiques plus riches et une solution à des problèmes tels que de mauvaises performances par mauvais temps ou dans des conditions de faible luminosité en utilisant de manière exhaustive les informations provenant de plusieurs capteurs. En réponse à ce problème, la discussion a proposé une nouvelle méthode de détection de cible 3D multimode, RCBEVDet, qui combine des caméras à vision panoramique et des capteurs radar économiques à ondes millimétriques. En utilisant de manière exhaustive les informations provenant de capteurs multimodes, RCBEVDet est capable de fournir des informations sémantiques haute résolution et de présenter de bonnes performances dans des conditions météorologiques extrêmes ou de faible luminosité. Le cœur de cette méthode pour améliorer le
RCBEVDet automatique réside dans deux conceptions clés : RadarBEVNet et Cross-Attention+Multi-layer Fusion Module (CAMF). RadarBEVNet est conçu pour extraire efficacement les caractéristiques radar et comprend un encodeur BEV (Bird's Eye View) compatible RCS (Radar Cross Section) de réseau fédérateur de radar à double flux. Une telle conception utilise des codeurs basés sur des nuages de points et des transformateurs pour traiter les points radar, mettre à jour les caractéristiques des points radar de manière interactive et utiliser les caractéristiques RCS spécifiques au radar comme informations préalables sur la taille de la cible afin d'optimiser la distribution des caractéristiques ponctuelles dans l'espace BEV. Le module CAMF résout le problème d'erreur d'azimut des points radar grâce à un mécanisme d'attention croisée multimodal, réalisant un alignement dynamique des cartes de caractéristiques BEV du radar et des caméras et une fusion adaptative de caractéristiques multimodales grâce à la fusion de canaux et spatiale. Dans la mise en œuvre, la distribution des caractéristiques ponctuelles dans l'espace BEV est optimisée par mise à jour interactive des caractéristiques ponctuelles du radar et par utilisation des caractéristiques RCS spécifiques au radar comme informations préalables sur la taille de la cible. Le module CAMF résout le problème d'erreur d'azimut des points radar grâce à un mécanisme d'attention croisée multimodal, réalisant un alignement dynamique des cartes de caractéristiques BEV du radar et des caméras et une fusion adaptative de caractéristiques multimodales grâce à la fusion de canaux et spatiale.
La nouvelle méthode proposée dans l'article résout les problèmes existants à travers les points suivants :
- Extracteur efficace de caractéristiques radar : conception d'encodeur BEV via une dorsale radar à double flux et une détection RCS, spécifiquement pour le radar. Les caractéristiques de les données sont optimisées pour résoudre les inconvénients liés à l'utilisation d'encodeurs conçus pour le lidar pour traiter les données radar.
- Puissant module de fusion de fonctionnalités radar-caméra : utilisant un mécanisme d'attention croisée déformé, il gère efficacement le problème de désalignement spatial entre l'image surround et l'entrée radar, et améliore l'effet de fusion.
Les principales contributions de l'article sont les suivantes :
- Propose un nouveau détecteur de cible 3D multimodal radar-caméra RCBEVDet, qui permet une détection de cible 3D de haute précision, haute efficacité et forte robustesse.
- Conception de RadarBEVNet, un extracteur de caractéristiques efficace pour les données radar, qui améliore l'efficacité et la précision de l'extraction de caractéristiques grâce à la dorsale radar à double flux et à l'encodeur BEV compatible RCS.
- Le module Cross-Attention Multi-layer Fusion est introduit pour obtenir un alignement précis et une fusion efficace des fonctionnalités du radar et de la caméra grâce au mécanisme d'attention croisée déformé.
- Atteint de nouvelles performances de pointe pour la détection d'objets 3D multimodaux radar-caméra sur les ensembles de données nuScenes et VoD, tout en obtenant le meilleur équilibre entre précision et vitesse et en démontrant de bonnes performances dans les scénarios de défaillance des capteurs.
Explication détaillée de RCBEVDet
RadarBEVNet
RadarBEVNet est une architecture de réseau proposée dans cet article pour l'extraction efficace des caractéristiques BEV (carte d'apparence des oiseaux). Elle comprend principalement deux composants de base : le double. Réseau de base de radar de flux et encodeur BEV compatible RCS (Radar Cross Section). Un réseau fédérateur de radar à double flux est utilisé pour extraire des représentations de caractéristiques riches à partir de données radar multicanaux. Il est construit sur un réseau neuronal convolutif profond (CNN), alternant entre des couches de convolution imbriquées et de regroupement pour les opérations d'extraction de caractéristiques et de réduction de dimensionnalité afin d'obtenir progressivement la dorsale radar à double flux
Le réseau fédérateur se compose de dorsales basées sur des points et d'un convertisseur. -des dorsales basées sur. Le réseau fédérateur basé sur des points apprend les caractéristiques radar via un perceptron multicouche (MLP) et des opérations de regroupement maximal. Le processus peut être simplifié selon la formule suivante :
représente ici les caractéristiques des points radar. maximum L'opération de pooling extrait des informations globales et les concatène avec des fonctionnalités de grande dimension. Le convertisseur introduit le mécanisme d'attention modulée par la distance (DMSA) basé sur le bloc d'interférence. En considérant les informations de distance entre les points radar, il optimise la capacité du modèle à collecter des informations adjacentes et favorise la convergence du modèle. L'auto-attention du mécanisme DMSA peut être exprimée comme suit :Encodeur BEV compatible RCS
Afin de résoudre le problème de rareté des fonctionnalités BEV causé par les encodeurs BEV radar traditionnels, un encodeur BEV compatible RCS est proposé. Il utilise le RCS comme information préalable sur la taille de la cible et répartit les caractéristiques des points radar sur plusieurs pixels de l'espace BEV au lieu d'un seul pixel pour augmenter la densité des caractéristiques BEV. Ce processus est mis en œuvre à travers la formule suivante :
où est la carte de poids gaussienne BEV basée sur RCS, qui est optimisée en maximisant la carte de poids de tous les points radar. Enfin, les fonctionnalités obtenues par répartition RCS sont connectées et traitées par MLP pour obtenir les fonctionnalités BEV finales compatibles RCS.
Dans l'ensemble, RadarBEVNet extrait efficacement les caractéristiques des données radar en combinant le réseau fédérateur de radar à double flux et l'encodeur BEV compatible RCS, et utilise RCS comme a priori de la taille cible pour optimiser la distribution des caractéristiques de l'espace BEV, fournissant une base pour une fusion multimodale ultérieure constitue une base solide.
Module de fusion multicouche à attention croisée
Le module de fusion multicouche à attention croisée (CAMF) est une structure de réseau avancée pour l'alignement dynamique et la fusion de fonctionnalités multimodales, en particulier pour le radar et l'alignement dynamique. et la conception de fusion des fonctionnalités Bird's Eye View (BEV) générées par la caméra. Ce module résout principalement le problème du désalignement des caractéristiques causé par l'erreur d'azimut des nuages de points radar. Grâce au mécanisme d'attention croisée déformable (Deformable Cross-Attention), il capture efficacement les petits écarts des points radar et réduit l'attention croisée standard. complexité informatique.
CAMF utilise un mécanisme d'attention croisée déformé pour aligner les caractéristiques BEV des caméras et des radars. Étant donné une somme de fonctionnalités BEV pour une caméra et un radar, les intégrations de positions apprenables sont d'abord ajoutées à la somme, puis converties en points de requête et de référence sous forme de clés et de valeurs. Le calcul de l'attention croisée de déformation multi-têtes peut être exprimé comme suit :
où représente l'indice de la tête d'attention, représente l'indice de la clé d'échantillonnage et est le nombre total de clés d'échantillonnage. Représente le décalage d'échantillonnage et est le poids d'attention calculé par et .
Après avoir aligné les fonctionnalités BEV de la caméra et du radar grâce à une attention croisée, CAMF utilise des couches de fusion de canaux et spatiales pour agréger les fonctionnalités BEV multimodales. Plus précisément, deux fonctionnalités BEV sont d'abord concaténées, puis introduites dans le bloc CBR (convolution-batch normalization-activation function) et les fonctionnalités fusionnées sont obtenues via une connexion résiduelle. Le bloc CBR se compose séquentiellement d'une couche convolutive, d'une couche de normalisation par lots et d'une fonction d'activation ReLU. Après cela, trois blocs CBR sont appliqués consécutivement pour fusionner davantage les fonctionnalités multimodales.
Grâce au processus ci-dessus, CAMF réalise efficacement un alignement précis et une fusion efficace des fonctionnalités du radar et de la caméra BEV, fournissant des informations riches et précises sur les fonctionnalités pour la détection de cibles 3D, améliorant ainsi les performances de détection.
Expériences associées
Dans la comparaison des résultats de détection de cibles 3D sur l'ensemble de validation VoD, RadarBEVNet a obtenu à la fois des performances de précision moyenne (mAP) dans l'ensemble de la zone d'annotation et dans la zone d'intérêt en fusionnant la caméra et données radar. Excellentes performances démontrées. Plus précisément, pour l'ensemble de la zone annotée, RadarBEVNet a atteint des valeurs AP de 40,63 %, 38,86 % et 70,48 % respectivement dans la détection des voitures, des piétons et des cyclistes, augmentant le mAP complet à 49,99 %. Dans la zone d'intérêt, c'est-à-dire dans le canal de conduite proche du véhicule, les performances de RadarBEVNet sont encore plus remarquables, atteignant 72,48 %, 49,89 % et 87,01 % des valeurs AP dans la détection des voitures, des piétons et cyclistes respectivement, et le mAP global a atteint 69,80 %.
Ces résultats révèlent plusieurs points clés. Premièrement, en fusionnant efficacement les entrées de la caméra et du radar, RadarBEVNet est en mesure de tirer pleinement parti des avantages complémentaires des deux capteurs et d'améliorer les performances globales de détection. Comparé aux méthodes qui utilisent uniquement le radar, telles que PointPillar et RadarPillarNet, RadarBEVNet présente une amélioration significative en termes de mAP complet, ce qui montre que la fusion multimodale est particulièrement importante pour améliorer la précision de la détection. Deuxièmement, RadarBEVNet fonctionne particulièrement bien dans les zones d'intérêt, ce qui est particulièrement critique pour les applications de conduite autonome, car les cibles dans les zones d'intérêt ont généralement le plus grand impact sur les décisions de conduite en temps réel. Enfin, bien que la valeur AP de RadarBEVNet soit légèrement inférieure à celle de certaines méthodes monomodales ou multimodales pour la détection des voitures et des piétons, RadarBEVNet montre ses avantages globaux en termes de performances en matière de détection des cyclistes et de performances mAP complètes. RadarBEVNet atteint d'excellentes performances sur l'ensemble de vérification VoD en fusionnant les données multimodales des caméras et des radars, démontrant notamment de fortes capacités de détection dans les zones d'intérêt critiques pour la conduite autonome, prouvant ainsi son efficacité en tant que potentiel des méthodes de détection d'objets 3D.
Cette expérience d'ablation démontre l'amélioration continue de RadarBEVNet dans les performances de détection d'objets 3D à mesure qu'il ajoute progressivement des composants majeurs. À partir du modèle de base BEVDepth, les composants ajoutés à chaque étape améliorent considérablement le NDS (métrique de base, reflétant la précision et l'exhaustivité de la détection) et le mAP (précision moyenne, reflétant la capacité du modèle à détecter des objets).
- Ajouter des informations temporelles : En introduisant des informations temporelles, NDS et mAP sont améliorés de 4,4 et 5,4 points de pourcentage respectivement. Cela montre que les informations temporelles sont très efficaces pour améliorer la précision et la robustesse de la détection d'objets 3D, probablement parce que la dimension temporelle fournit des informations dynamiques supplémentaires qui aident le modèle à mieux comprendre les caractéristiques dynamiques de la scène et des objets.
- Ajouter PointPillar+BEVFusion (basé sur la fusion du radar et de la caméra) : Cette étape améliore encore NDS et mAP, augmentant respectivement de 1,7 et 1,8 points de pourcentage. Cela montre qu'en fusionnant les données radar et caméra, le modèle peut obtenir une compréhension plus complète de la scène, compensant ainsi les limites des données monomodales.
- Présentation de RadarBEVNet : NDS et mAP ont encore augmenté de 2,1 et 3,0 points de pourcentage respectivement. RadarBEVNet, en tant qu'extracteur de caractéristiques radar efficace, optimise le traitement des données radar et améliore la qualité et l'efficacité des caractéristiques, ce qui est crucial pour améliorer les performances globales de détection.
- Ajouter CAMF (Cross Attention Multi-layer Fusion Module) : Grâce à un alignement et une fusion fins des fonctionnalités, NDS est augmenté de 0,7 point de pourcentage et mAP est légèrement amélioré à 45,6, montrant l'efficacité de la fusion de fonctionnalités. Bien que l’amélioration de cette étape ne soit pas aussi significative que les étapes précédentes, elle prouve néanmoins l’importance d’un alignement précis des caractéristiques pour améliorer les performances de détection au cours du processus de fusion multimodale.
- Ajouter une supervision temporelle : Enfin, après l'introduction de la supervision temporelle, le NDS a légèrement augmenté de 0,4 point de pourcentage à 56,8, tandis que le mAP a légèrement diminué de 0,3 point de pourcentage à 45,3. Cela montre que la supervision temporelle peut encore améliorer les performances du modèle dans la dimension temporelle, bien que la contribution à mAP puisse être légèrement limitée par l'impact de paramètres expérimentaux spécifiques ou de distribution de données.
Dans l'ensemble, cette série d'expériences d'ablation démontre clairement la contribution de chaque composant majeur de RadarBEVNet à l'amélioration des performances de détection d'objets 3D, de l'introduction d'informations temporelles à la stratégie de fusion multimodale complexe, chaque étape apporte des améliorations de performances au modèle. En particulier, les stratégies sophistiquées de traitement et de fusion des données radar et caméra prouvent l’importance du traitement des données multimodales dans des environnements de conduite autonome complexes.
Discussion
La méthode RadarBEVNet proposée dans l'article améliore efficacement la précision et la robustesse de la détection de cibles 3D en fusionnant les données multimodales des caméras et des radars, en particulier dans des scénarios de conduite autonome complexes. En introduisant RadarBEVNet et le module de fusion multicouche à attention croisée (CAMF), RadarBEVNet optimise non seulement le processus d'extraction des caractéristiques des données radar, mais réalise également un alignement précis des caractéristiques et une fusion entre les données du radar et de la caméra, surmontant ainsi le problème de l'utilisation d'un seul les limitations des données des capteurs, telles que les erreurs de relèvement radar et la dégradation des performances de la caméra en cas de faible luminosité ou de conditions météorologiques défavorables.
En termes d'avantages, la principale contribution de RadarBEVNet est sa capacité à traiter et utiliser efficacement des informations complémentaires entre les données multimodales, améliorant ainsi la précision de la détection et la robustesse du système. L'introduction de RadarBEVNet rend le traitement des données radar plus efficace et le module CAMF assure la fusion efficace des différentes données de capteurs, compensant ainsi leurs lacunes respectives. En outre, RadarBEVNet a démontré d'excellentes performances sur plusieurs ensembles de données lors d'expériences, en particulier dans des domaines d'intérêt cruciaux pour la conduite autonome, démontrant ainsi son potentiel dans des scénarios d'application pratiques.
En termes d'inconvénients, bien que RadarBEVNet ait obtenu des résultats remarquables dans le domaine de la détection de cibles 3D multimodale, la complexité de sa mise en œuvre a également augmenté en conséquence et peut nécessiter plus de ressources de calcul et de temps de traitement, ce qui limite son utilisation à un certain Déploiement dans des scénarios d’application en temps réel. De plus, bien que RadarBEVNet soit performant en matière de détection des cyclistes et de performances globales, il reste encore des possibilités d'amélioration des performances sur des catégories spécifiques (telles que les voitures et les piétons), ce qui peut nécessiter une optimisation plus poussée de l'algorithme ou des stratégies de fusion de fonctionnalités plus efficaces pour être résolues.
En résumé, RadarBEVNet a démontré des avantages de performance significatifs dans le domaine de la détection d'objets 3D grâce à sa stratégie innovante de fusion multimodale. Bien qu’il existe certaines limites, telles qu’une complexité informatique plus élevée et une marge d’amélioration des performances sur des catégories de détection spécifiques, son potentiel d’amélioration de la précision et de la robustesse des systèmes de conduite autonome ne peut être ignoré. Les travaux futurs pourront se concentrer sur l’optimisation de l’efficacité informatique de l’algorithme et sur l’amélioration de ses performances sur diverses détections de cibles afin de promouvoir le déploiement généralisé de RadarBEVNet dans les applications réelles de conduite autonome.
Conclusion
Le document présente RadarBEVNet et le module de fusion multicouche à attention croisée (CAMF) en fusionnant les données de caméra et de radar, montrant des améliorations significatives des performances dans le domaine de la détection de cibles 3D, en particulier dans la clé de la conduite autonome. Excellentes performances dans la scène. Il utilise efficacement les informations complémentaires entre les données multimodales pour améliorer la précision de la détection et la robustesse du système. Malgré les défis liés à une grande complexité informatique et aux possibilités d'amélioration des performances dans certaines catégories, notre système a montré un grand potentiel et une grande valeur pour promouvoir le développement de la technologie de conduite autonome, notamment en améliorant les capacités de perception des systèmes de conduite autonome. Les travaux futurs pourront se concentrer sur l’optimisation de l’efficacité des algorithmes et sur l’amélioration continue des performances de détection afin de mieux s’adapter aux besoins des applications de conduite autonome en temps réel.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Écrit ci-dessus et compréhension personnelle de l'auteur Le Gaussiansplatting tridimensionnel (3DGS) est une technologie transformatrice qui a émergé dans les domaines des champs de rayonnement explicites et de l'infographie ces dernières années. Cette méthode innovante se caractérise par l’utilisation de millions de gaussiennes 3D, ce qui est très différent de la méthode du champ de rayonnement neuronal (NeRF), qui utilise principalement un modèle implicite basé sur les coordonnées pour mapper les coordonnées spatiales aux valeurs des pixels. Avec sa représentation explicite de scènes et ses algorithmes de rendu différenciables, 3DGS garantit non seulement des capacités de rendu en temps réel, mais introduit également un niveau de contrôle et d'édition de scène sans précédent. Cela positionne 3DGS comme un révolutionnaire potentiel pour la reconstruction et la représentation 3D de nouvelle génération. À cette fin, nous fournissons pour la première fois un aperçu systématique des derniers développements et préoccupations dans le domaine du 3DGS.

Hier, lors de l'entretien, on m'a demandé si j'avais posé des questions à longue traîne, j'ai donc pensé faire un bref résumé. Le problème à longue traîne de la conduite autonome fait référence aux cas extrêmes dans les véhicules autonomes, c'est-à-dire à des scénarios possibles avec une faible probabilité d'occurrence. Le problème perçu de la longue traîne est l’une des principales raisons limitant actuellement le domaine de conception opérationnelle des véhicules autonomes intelligents à véhicule unique. L'architecture sous-jacente et la plupart des problèmes techniques de la conduite autonome ont été résolus, et les 5 % restants des problèmes à longue traîne sont progressivement devenus la clé pour restreindre le développement de la conduite autonome. Ces problèmes incluent une variété de scénarios fragmentés, de situations extrêmes et de comportements humains imprévisibles. La « longue traîne » des scénarios limites dans la conduite autonome fait référence aux cas limites dans les véhicules autonomes (VA). Les cas limites sont des scénarios possibles avec une faible probabilité d'occurrence. ces événements rares

0. Écrit à l'avant&& Compréhension personnelle que les systèmes de conduite autonome s'appuient sur des technologies avancées de perception, de prise de décision et de contrôle, en utilisant divers capteurs (tels que caméras, lidar, radar, etc.) pour percevoir l'environnement et en utilisant des algorithmes et des modèles pour une analyse et une prise de décision en temps réel. Cela permet aux véhicules de reconnaître les panneaux de signalisation, de détecter et de suivre d'autres véhicules, de prédire le comportement des piétons, etc., permettant ainsi de fonctionner en toute sécurité et de s'adapter à des environnements de circulation complexes. Cette technologie attire actuellement une grande attention et est considérée comme un domaine de développement important pour l'avenir des transports. . un. Mais ce qui rend la conduite autonome difficile, c'est de trouver comment faire comprendre à la voiture ce qui se passe autour d'elle. Cela nécessite que l'algorithme de détection d'objets tridimensionnels du système de conduite autonome puisse percevoir et décrire avec précision les objets dans l'environnement, y compris leur emplacement,

Le premier article pilote et clé présente principalement plusieurs systèmes de coordonnées couramment utilisés dans la technologie de conduite autonome, et comment compléter la corrélation et la conversion entre eux, et enfin construire un modèle d'environnement unifié. L'objectif ici est de comprendre la conversion du véhicule en corps rigide de caméra (paramètres externes), la conversion de caméra en image (paramètres internes) et la conversion d'image en unité de pixel. La conversion de 3D en 2D aura une distorsion, une traduction, etc. Points clés : Le système de coordonnées du véhicule et le système de coordonnées du corps de la caméra doivent être réécrits : le système de coordonnées planes et le système de coordonnées des pixels Difficulté : la distorsion de l'image doit être prise en compte. La dé-distorsion et l'ajout de distorsion sont compensés sur le plan de l'image. 2. Introduction Il existe quatre systèmes de vision au total : système de coordonnées du plan de pixels (u, v), système de coordonnées d'image (x, y), système de coordonnées de caméra () et système de coordonnées mondiales (). Il existe une relation entre chaque système de coordonnées,

La prédiction de trajectoire joue un rôle important dans la conduite autonome. La prédiction de trajectoire de conduite autonome fait référence à la prédiction de la trajectoire de conduite future du véhicule en analysant diverses données pendant le processus de conduite du véhicule. En tant que module central de la conduite autonome, la qualité de la prédiction de trajectoire est cruciale pour le contrôle de la planification en aval. La tâche de prédiction de trajectoire dispose d'une riche pile technologique et nécessite une connaissance de la perception dynamique/statique de la conduite autonome, des cartes de haute précision, des lignes de voie, des compétences en architecture de réseau neuronal (CNN&GNN&Transformer), etc. Il est très difficile de démarrer ! De nombreux fans espèrent se lancer dans la prédiction de trajectoire le plus tôt possible et éviter les pièges. Aujourd'hui, je vais faire le point sur quelques problèmes courants et des méthodes d'apprentissage introductives pour la prédiction de trajectoire ! Connaissances introductives 1. Existe-t-il un ordre d'entrée pour les épreuves de prévisualisation ? R : Regardez d’abord l’enquête, p

Écrit à l'avant et point de départ Le paradigme de bout en bout utilise un cadre unifié pour réaliser plusieurs tâches dans les systèmes de conduite autonome. Malgré la simplicité et la clarté de ce paradigme, les performances des méthodes de conduite autonome de bout en bout sur les sous-tâches sont encore loin derrière les méthodes à tâche unique. Dans le même temps, les fonctionnalités de vue à vol d'oiseau (BEV) denses, largement utilisées dans les méthodes de bout en bout précédentes, rendent difficile l'adaptation à davantage de modalités ou de tâches. Un paradigme de conduite autonome de bout en bout (SparseAD) centré sur la recherche clairsemée est proposé ici, dans lequel la recherche clairsemée représente entièrement l'ensemble du scénario de conduite, y compris l'espace, le temps et les tâches, sans aucune représentation BEV dense. Plus précisément, une architecture clairsemée unifiée est conçue pour la connaissance des tâches, notamment la détection, le suivi et la cartographie en ligne. De plus, lourd

Titre original : SIMPL : ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving Lien article : https://arxiv.org/pdf/2402.02519.pdf Lien code : https://github.com/HKUST-Aerial-Robotics/SIMPL Affiliation de l'auteur : Université des sciences de Hong Kong et technologie Idée DJI Paper : cet article propose une base de référence de prédiction de mouvement (SIMPL) simple et efficace pour les véhicules autonomes. Par rapport au cent agent traditionnel

Au cours du mois dernier, pour des raisons bien connues, j'ai eu des échanges très intensifs avec divers professeurs et camarades de classe du secteur. Un sujet inévitable dans l'échange est naturellement le populaire Tesla FSDV12 de bout en bout. Je voudrais profiter de cette occasion pour trier certaines de mes pensées et opinions en ce moment pour votre référence et votre discussion. Comment définir un système de conduite autonome de bout en bout et quels problèmes devraient être résolus de bout en bout ? Selon la définition la plus traditionnelle, un système de bout en bout fait référence à un système qui saisit les informations brutes des capteurs et génère directement les variables pertinentes pour la tâche. Par exemple, en reconnaissance d'images, CNN peut être appelé de bout en bout par rapport à la méthode traditionnelle d'extraction de caractéristiques + classificateur. Dans les tâches de conduite autonome, saisir les données de divers capteurs (caméra/LiDAR
