


OccFusion : Un framework de fusion multi-capteurs simple et efficace pour Occ (Performance SOTA)
Une compréhension globale des scènes 3D est cruciale dans la conduite autonome, et les récents modèles de prédiction sémantique d'occupation 3D ont relevé avec succès le défi consistant à décrire des objets du monde réel avec différentes formes et catégories. Cependant, les méthodes de prévision d’occupation 3D existantes s’appuient fortement sur les images de caméras panoramiques, ce qui les rend sensibles aux changements d’éclairage et de conditions météorologiques. En intégrant les capacités de capteurs supplémentaires tels que le lidar et le radar à vision panoramique, notre cadre améliore la précision et la robustesse de la prévision d'occupation, ce qui se traduit par des performances optimales sur le benchmark nuScenes. De plus, des expériences approfondies sur l'ensemble de données nuScene, y compris des scènes nocturnes et pluvieuses difficiles, confirment les performances supérieures de notre stratégie de fusion de capteurs sur différentes plages de détection.
Lien de l'article : https://arxiv.org/pdf/2403.01644.pdf
Nom de l'article : OccFusion : Un cadre de fusion multi-capteurs simple et efficace pour la prévision d'occupation 3D
Les principales contributions de cet article sont résumées comme suit :
- Un cadre de fusion multi-capteurs est proposé pour intégrer les informations de caméra, lidar et radar afin d'effectuer des tâches de prédiction sémantique d'occupation 3D.
- Dans la tâche de prédiction d'occupation sémantique 3D, notre méthode est comparée à d'autres algorithmes de pointe (SOTA) pour démontrer les avantages de la fusion multi-capteurs.
- Des études d'ablation approfondies ont été menées pour évaluer les gains de performances obtenus par différentes combinaisons de capteurs dans des conditions d'éclairage et météorologiques difficiles telles que la nuit et la pluie.
- Une étude approfondie a été menée pour analyser l'impact des facteurs de portée perceptuelle sur les performances de notre framework dans les tâches de prédiction d'occupation sémantique 3D, en considérant diverses combinaisons de capteurs et des scénarios difficiles !
Aperçu de la structure du réseau
L'architecture globale d'OccFusion est la suivante. Tout d’abord, les images en vue panoramique sont entrées dans une structure 2D pour extraire des caractéristiques multi-échelles. Par la suite, la transformation de la vue est effectuée à chaque échelle pour obtenir les caractéristiques BEV globales et le volume de caractéristiques 3D locales à chaque niveau. Les nuages de points 3D générés par le lidar et le radar surround sont également introduits dans le réseau fédérateur 3D pour générer des quantités de caractéristiques 3D locales multi-échelles et des caractéristiques BEV globales. Les modules de fusion dynamique 3D/2D à chaque niveau combinent les capacités des caméras et du lidar/radar. Après cela, les caractéristiques BEV globales fusionnées et le volume de caractéristiques 3D locales à chaque niveau sont introduits dans la fusion d'attention globale-locale pour générer le volume 3D final à chaque échelle. Enfin, le volume 3D à chaque niveau est suréchantillonné et connecté avec un mécanisme de supervision multi-échelle.
Analyse comparative expérimentale
Sur l'ensemble de validation nuScenes, les résultats de diverses méthodes basées sur la formation d'étiquettes d'occupation denses dans la prédiction sémantique d'occupation 3D sont présentés. Ces méthodes impliquent différents concepts modaux dont la caméra (C), le lidar (L) et le radar (R).
Sur le sous-ensemble de scènes pluvieuses de l'ensemble de données nuScenes, nous prédisons l'occupation sémantique 3D et utilisons des étiquettes d'occupation denses pour la formation. Dans cette expérience, nous avons considéré des données provenant de différentes modalités telles que la caméra (C), le lidar (L), le radar (R), etc. La fusion de ces modes peut nous aider à mieux comprendre et prédire les scènes pluvieuses, constituant ainsi une référence importante pour le développement de systèmes de conduite autonome.
nuScenes valide les résultats de prédiction d'occupation sémantique 3D pour un sous-ensemble de scènes nocturnes. Toutes les méthodes sont formées à l’aide d’étiquettes d’occupation denses. Concepts modaux : caméra (C), lidar (L), radar (R).
Tendances de changement de performance. (a) Tendance de changement de performances de l'ensemble de la validation nuScenes, (b) sous-ensemble de scènes de nuit de validation nuScenes, et (c) tendance de changement de performances de validation nuScene du sous-ensemble de scènes pluvieuses.
Tableau 4 : Comparaison de l'efficacité du modèle de différentes méthodes. Des expériences ont été menées sur un A10 en utilisant six images multi-caméras, des données lidar et radar. Pour la résolution de l’image d’entrée, 1 600 × 900 est utilisé pour toutes les méthodes. ↓ : Plus c'est bas, mieux c'est.
Plus d'expériences d'ablation :
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Samsung a officiellement lancé la version nationale du Samsung Galaxy Ring le 17 juillet, au prix de 2 999 yuans. Le vrai téléphone du Galaxy Ring est en réalité la version 2024 de "WowAwesome, c'est mon moment exclusif". C'est le produit électronique qui nous fait sentir le plus frais ces dernières années (même si cela ressemble à un drapeau) ces dernières années. (Sur la photo, les anneaux à gauche et à droite sont Galaxy Ring↑) Spécifications du Samsung Galaxy Ring (données du site officiel de la Banque de Chine) : système ZephyrRTOS, stockage 8 Mo étanche 10 ATM + capacité de la batterie 18 mAh à 23,5 ; mAh (différentes tailles

Récemment, de nouvelles nouvelles concernant l'iPhone SE4 ont été révélées sur Weibo. On dit que le processus de couverture arrière de l'iPhone SE4 est exactement le même que celui de la version standard de l'iPhone 16. En d'autres termes, l'iPhone SE4 utilisera un panneau arrière en verre et un. écran droit et conception à bord droit. Il est rapporté que l’iPhone SE4 sortira avant septembre de cette année, ce qui signifie qu’il sera probablement dévoilé en même temps que l’iPhone 16. 1. D'après les rendus exposés, le design avant de l'iPhone SE4 est similaire à celui de l'iPhone 13, avec une caméra frontale et un capteur FaceID sur l'écran à encoche. L'arrière utilise une disposition similaire à celle de l'iPhoneXr, mais il n'a qu'un seul appareil photo et n'a pas de module de caméra global.

La série Xiaomi Mi 15 devrait être officiellement lancée en octobre, et les noms de code de sa série complète ont été exposés dans la base de code MiCode des médias étrangers. Parmi eux, le produit phare Xiaomi Mi 15 Ultra porte le nom de code « Xuanyuan » (qui signifie « Xuanyuan »). Ce nom vient de l'Empereur Jaune dans la mythologie chinoise, qui symbolise la noblesse. Le Xiaomi 15 porte le nom de code « Dada », tandis que le Xiaomi 15Pro s'appelle « Haotian » (qui signifie « Haotian »). Le nom de code interne du Xiaomi Mi 15S Pro est « dijun », qui fait allusion à l'empereur Jun, le dieu créateur du « Classique des montagnes et des mers ». Couvertures de la série Xiaomi 15Ultra

Il est rapporté que la prochaine série d’iPhone 18 d’Apple devrait utiliser des capteurs d’image fabriqués par Samsung. Ce changement devrait briser le monopole de Sony sur la chaîne d’approvisionnement d’Apple. 1. Selon certaines informations, Samsung aurait mis en place une équipe dédiée pour répondre aux exigences d'Apple. Samsung fournira à Apple un capteur d'image ultra grand angle de 48 mégapixels, 1/2,6 pouce à partir de 2026, indiquant qu'Apple ne dépend plus entièrement de la fourniture de capteurs Sony. Apple compte près d'un millier de fournisseurs et sa stratégie de gestion de la chaîne d'approvisionnement est flexible et changeante. Apple attribue généralement au moins deux fournisseurs pour chaque composant afin de promouvoir la concurrence entre les fournisseurs et d'obtenir de meilleurs prix. L'introduction de Samsung en tant que fournisseur de capteurs peut optimiser la structure de coûts d'Apple et pourrait affecter la position de Sony sur le marché. La force de la technologie du capteur d’image Samsung

L'évaluation du rapport coût/performance du support commercial pour un framework Java implique les étapes suivantes : Déterminer le niveau d'assurance requis et les garanties de l'accord de niveau de service (SLA). L’expérience et l’expertise de l’équipe d’appui à la recherche. Envisagez des services supplémentaires tels que les mises à niveau, le dépannage et l'optimisation des performances. Évaluez les coûts de support commercial par rapport à l’atténuation des risques et à une efficacité accrue.

Dans cette époque où tout va très vite, OPPO Find X7 peut utiliser sa puissance d’imagerie pour nous permettre de savourer chaque beau moment de la vie. Qu'il s'agisse de magnifiques montagnes, rivières, lacs ou mers, de réunions de famille chaleureuses ou de rencontres et surprises dans la rue, il peut vous aider à les enregistrer avec une qualité d'image « inégalée ». De l’extérieur, le design de la caméra Deco de Find It est très reconnaissable et dégage une sensation haut de gamme. L'intérieur est également unique, à commencer par la configuration matérielle de base. FindX7 conserve le précédent

La courbe d'apprentissage d'un framework PHP dépend de la maîtrise du langage, de la complexité du framework, de la qualité de la documentation et du support de la communauté. La courbe d'apprentissage des frameworks PHP est plus élevée par rapport aux frameworks Python et inférieure par rapport aux frameworks Ruby. Par rapport aux frameworks Java, les frameworks PHP ont une courbe d'apprentissage modérée mais un temps de démarrage plus court.

La marque Redmi de Xiaomi se prépare à ajouter un autre téléphone économique à son portefeuille : le Redmi 14C. Il est confirmé que l'appareil sortira au Vietnam le 31 août. Cependant, avant le lancement, les spécifications du téléphone ont été révélées par l'intermédiaire d'un détaillant vietnamien. Redmi14CR Redmi apporte souvent de nouveaux designs dans de nouvelles séries, et Redmi14C ne fait pas exception. Le téléphone dispose d’un grand module de caméra circulaire à l’arrière, complètement différent du design de son prédécesseur. La version de couleur bleue utilise même un design dégradé pour lui donner un aspect plus haut de gamme. Cependant, le Redmi14C est en réalité un téléphone mobile économique. Le module caméra se compose de quatre anneaux : l'un abrite le capteur principal de 50 mégapixels et l'autre peut abriter la caméra pour les informations de profondeur.
