Neue BEV LV Fusion-Lösung: Lift-Attend-Splat über BEVFusion hinaus

PHPz
Freigeben: 2024-01-13 22:45:07
nach vorne
608 Leute haben es durchsucht

Papier: Lift-Attend-Splat-Methode für die Fusion von Vogelperspektivenkameras und Lidar mithilfe der Transformer-Technologie

Bitte klicken Sie auf den Link, um die Datei anzuzeigen: https://arxiv.org/pdf/2312.14919.pdf

Zur Sicherheit- Bei kritischen Anwendungen wie dem autonomen Fahren ist es entscheidend, komplementäre Sensormodalitäten zu kombinieren. Neuere Kamera-Lidar-Fusionsmethoden für autonomes Fahren verwenden eine monokulare Tiefenschätzung, um die Wahrnehmung zu verbessern. Dies ist jedoch eine schwierige Aufgabe im Vergleich zur direkten Nutzung von Tiefeninformationen aus Lidar. Unsere Studie kommt zu dem Schluss, dass dieser Ansatz die Tiefeninformationen nicht vollständig ausnutzt, und zeigt, dass eine naive Verbesserung der Tiefenschätzung nicht zu einer Verbesserung der Objekterkennungsleistung führt. Überraschenderweise beeinträchtigt das vollständige Entfernen der Tiefenschätzung nicht die Objekterkennungsleistung

Dies deutet darauf hin, dass die Abhängigkeit von der monokularen Tiefe ein unnötiger architektonischer Engpass bei der Kamera-Lidar-Fusion sein könnte. Diese Studie schlägt eine neue Fusionsmethode vor, die die monokulare Tiefenschätzung vollständig umgeht und stattdessen einen einfachen Aufmerksamkeitsmechanismus verwendet, um Kamera- und Lidar-Merkmale in einem BEV-Gitter auszuwählen und zu fusionieren. Die Ergebnisse zeigen, dass das vorgeschlagene Modell in der Lage ist, die Verwendung von Kamerafunktionen basierend auf der Verfügbarkeit von Lidar-Funktionen anzupassen und eine bessere 3D-Erkennungsleistung im nuScenes-Datensatz aufweist als Basismodelle, die auf monokularer Tiefenschätzung basieren.

Einführung in diese Studie Eine neue Kamera -Lidar-Fusion-Methode namens „Lift Attented Splat“ entwickelt. Diese Methode vermeidet eine monokulare Tiefenschätzung und nutzt stattdessen einen einfachen Transformator zur Auswahl und Fusion von Kamera- und Lidar-Funktionen im BEV. Experimente belegen, dass diese Forschungsmethode im Vergleich zu Methoden, die auf monokularer Tiefenschätzung basieren, Kameras besser nutzen und die Objekterkennungsleistung verbessern kann. Die Beiträge dieser Studie sind wie folgt:

  1. Die auf dem Lift-Splat-Paradigma basierende Kamera-Lidar-Fusionsmethode nutzt die Tiefe nicht wie erwartet aus. Insbesondere zeigen wir, dass sie gleich gut oder besser abschneiden, wenn die monokulare Tiefenvorhersage vollständig entfernt wird.
  2. In diesem Artikel wird eine neue Kamera-Lidar-Fusionsmethode vorgestellt, die einen einfachen Aufmerksamkeitsmechanismus verwendet, um Kamera- und Lidar-Funktionen in reinem BEV zu fusionieren. Das Papier zeigt, dass es im Vergleich zu Modellen, die auf dem Lift-Splat-Paradigma basieren, Kameras besser nutzen und die 3D-Erkennungsleistung verbessern kann.

Einführung in die Hauptstruktur

Die Genauigkeit der Tiefenvorhersage ist normalerweise gering. Qualitative und quantitative Analysen können durchgeführt werden, indem die von BEVFusion vorhergesagte Tiefenqualität mit LIDAR-Tiefenkarten unter Verwendung des absoluten relativen Fehlers (Abs.Rel.) und des quadratischen Mittelfehlers (RMSE) verglichen wird. Wie in Abbildung 1 dargestellt, spiegelt die Tiefenvorhersage die Struktur der Szene nicht genau wider und unterscheidet sich erheblich von der Lidar-Tiefenkarte, was darauf hindeutet, dass die monokulare Tiefe nicht wie erwartet vollständig genutzt wird. Die Studie ergab auch, dass eine Verbesserung der Tiefenvorhersage die Objekterkennungsleistung nicht verbessert! Das vollständige Entfernen der Tiefenvorhersage hat keinen Einfluss auf die Objekterkennungsleistung

超越BEVFusion!Lift-Attend-Splat:最新BEV LV融合方案

Wir schlagen eine Kamera-Lidar-Fusionsmethode vor, die die monokulare Tiefenschätzung vollständig umgeht und stattdessen einen einfachen Transformator verwendet, um Kamera- und Lidar-Funktionen aus der Vogelperspektive zu fusionieren. Aufgrund der großen Anzahl von Kamera- und Lidar-Funktionen und der quadratischen Natur der Aufmerksamkeit ist es jedoch schwierig, die Transformatorarchitektur einfach auf das Kamera-Lidar-Fusionsproblem anzuwenden. Bei der Projektion von Kameramerkmalen in BEV kann die Geometrie des Problems genutzt werden, um den Aufmerksamkeitsbereich erheblich einzuschränken, da Kameramerkmale nur zur Position entlang ihrer entsprechenden Strahlen beitragen sollten. Wir wenden diese Idee auf den Fall der Kamera-Lidar-Fusion an und stellen eine einfache Fusionsmethode vor, die die Kreuzaufmerksamkeit zwischen Säulen in der Kameraebene und Polarstrahlen im Lidar-BEV-Gitter nutzt! Anstatt die monokulare Tiefe vorherzusagen, lernt die Kreuzaufmerksamkeit, welche Kameramerkmale im Kontext, der durch LIDAR-Merkmale entlang ihrer Strahlen bereitgestellt wird, am hervorstechendsten sind

Unser Modell hat eine ähnliche Gesamtarchitektur wie Methoden, die auf dem Lift-Splat-Paradigma basieren, zusätzlich zur Projektion von Kameramerkmalen im BEV. Wie in der Abbildung unten dargestellt, besteht es aus einem Kamera- und Lidar-Backbone, einem Modul, das jedes modale Merkmal unabhängig generiert, einem Projektions- und Fusionsmodul, das die Kameramerkmale in das BEV einbettet und sie mit dem Lidar verschmilzt, und einem Erkennungskopf. Bei der Betrachtung der Zielerkennung besteht die endgültige Ausgabe des Modells aus den Attributen des Ziels in der Szene, einschließlich Position, Abmessung, Richtung, Geschwindigkeit und Klassifizierungsinformationen, dargestellt in Form eines 3D-Begrenzungsrahmens

Lift Attented Splat-Kamera-Lidar-Fusion Architektur ist unten dargestellt. (Links) Gesamtarchitektur: Merkmale der Kamera und des Lidar-Backbones werden miteinander verschmolzen, bevor sie an den Erkennungskopf weitergeleitet werden. (Einschub) Die Geometrie unserer 3D-Projektion: Der „Lift“-Schritt bettet die LIDAR-BEV-Features in den projizierten Horizont ein, indem bilineares Sampling verwendet wird, um die LIDAR-Features entlang der Z-Richtung anzuheben. Der „Splat“-Schritt entspricht der inversen Transformation, da er bilineares Sampling verwendet, um die Merkmale vom projizierten Horizont zurück auf das BEV-Gitter zu projizieren, wiederum entlang der Z-Richtung! Rechts finden Sie die Details zum Projektmodul.

超越BEVFusion!Lift-Attend-Splat:最新BEV LV融合方案

Experimentelle Ergebnisse

超越BEVFusion!Lift-Attend-Splat:最新BEV LV融合方案

超越BEVFusion!Lift-Attend-Splat:最新BEV LV融合方案

超越BEVFusion!Lift-Attend-Splat:最新BEV LV融合方案

超越BEVFusion!Lift-Attend-Splat:最新BEV LV融合方案

Originallink: https://mp.weixin.qq.com/s/D7xgvrp8633S2SeUfCRFXQ

Das obige ist der detaillierte Inhalt vonNeue BEV LV Fusion-Lösung: Lift-Attend-Splat über BEVFusion hinaus. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:51cto.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage