Titel neu geschrieben: Range Awareness: Taming LiDAR Range View for Efficient and Accurate 3D Object Detection
Bitte klicken Sie auf den folgenden Link, um das Papier anzusehen: https://openreview.net/pdf?id=9kFQEJSyCM
Autorenzugehörigkeit: Shanghai Artificial Geheimdienstlabor der Fudan-Universität Nach dem Umschreiben: Abteilung: Shanghai Artificial Intelligence Laboratory, Fudan University
Derzeit verwenden LiDAR-basierte 3D-Erkennungsmethoden hauptsächlich die Vogelperspektive (BEV) oder die Entfernungsansicht (RV) als Grundlage . BEV-Methoden basieren auf Voxelisierung und 3D-Faltung, was zu weniger effizienten Trainings- und Inferenzprozessen führt. Im Gegensatz dazu weist die RV-Methode aufgrund ihrer Kompaktheit und Kompatibilität mit 2D-Faltungen eine höhere Effizienz auf, ihre Leistung bleibt jedoch immer noch hinter der BEV-Methode zurück. Um die Leistungslücke zu schließen und gleichzeitig die Effizienz der RV-Methode beizubehalten, schlägt diese Studie ein effizientes und genaues RV-basiertes 3D-Objekterkennungs-Framework namens RangePerception vor. Durch sorgfältige Analyse identifiziert diese Studie zwei Hauptherausforderungen, die die Leistung vorhandener RV-Methoden behindern: 1) Es besteht eine natürliche Domänenlücke zwischen den in der Ausgabe verwendeten 3D-Weltkoordinaten und den in der Eingabe verwendeten 2D-Bereichsbildkoordinaten, was dazu führt eine Änderung der Entfernung Es wird schwierig, Informationen aus Bildern zu extrahieren; 2) Das ursprüngliche Entfernungsbild weist visuelle Beschädigungsprobleme auf, die sich auf die Erkennungsgenauigkeit von Zielen auswirken, die sich am Rand des Entfernungsbilds befinden. Um diesen Herausforderungen zu begegnen, werden in diesem Artikel zwei neuartige Algorithmen namens Range Aware Kernel (RAK) und Vision Restoration Module (VRM) vorgeschlagen, die den Informationsfluss der Entfernungsbilddarstellung und der Ergebnisse der Weltkoordinaten-3D-Erkennung erleichtern. Mit Hilfe von RAK und VRM verbessert RangePerception den durchschnittlichen L1/L2-AP um 3,25/4,18 gegenüber der bisherigen hochmodernen RV-Methode RangeDet auf Waymo Open Dataset. RangePerception ist die erste RV-basierte 3D-Erkennungsmethode, deren durchschnittlicher AP etwas höher ist und die Inferenzgeschwindigkeit 1,3-mal so hoch ist wie die von CenterPoint.
demonstriert ein effizientes und genaues RV-basiertes 3D-Erkennungsframework namens RangePerception. Um die oben genannten Hauptherausforderungen zu bewältigen, werden zwei neuartige Algorithmen namens Range Aware Kernel (RAK) und Vision Restoration Module (VRM) vorgeschlagen und in das RangePerception-Framework integriert, die beide die Darstellung von Entfernungsbildern und den 3D-Informationsfluss von Testergebnissen in Weltkoordinaten erleichtern. Mit Hilfe von RAK und VRM erreicht unser RangePerception eine hochmoderne Leistung als auf Entfernungsansichten basierende 3D-Erkennungsmethode, indem es 73,62, 80,24 und 70,33 L1 3D AP auf WOD für Fahrzeuge, Fußgänger und Radfahrer liefert. Die Beiträge dieses Artikels sind wie folgt.
RangePerception Framework In diesem Artikel wird ein neuartiges leistungsstarkes 3D-Erkennungsframework namens RangePerception vorgestellt. RangePerception ist der erste RV-basierte 3D-Detektor, der einen durchschnittlichen L1/L2-AP von 74,73/69,17 bei WOD erreicht, was besser ist als der bisherige hochmoderne RV-basierte Detektor RangeDet, der einen durchschnittlichen L1/L2 hat AP von 71,48/64,99, was einer Verbesserung von 3,25/4,18 entspricht. RangePerception zeigt auch eine leicht überlegene Leistung im Vergleich zur weit verbreiteten BEV-basierten Methode CenterPoint [6], die einen durchschnittlichen L1/L2-AP von 74,25/68,04 erreicht. Bemerkenswert ist, dass die Inferenzgeschwindigkeit von RangePerception 1,3-mal schneller ist als die von CenterPoint, was beweist, dass es sich besser für den Echtzeiteinsatz in autonomen Fahrzeugen eignet.
Range Aware Kernel Der Range Aware Kernel (RAK) ist Teil des RangePerception-Feature-Extraktors und ein bahnbrechender Algorithmus, der auf RV-basierte Netzwerke zugeschnitten ist. RAK zerlegt den Entfernungsbildraum in mehrere Unterräume und überwindet das Problem der räumlichen Fehlausrichtung, indem Merkmale aus jedem Unterraum unabhängig extrahiert werden. Experimentelle Ergebnisse zeigen, dass RAK den durchschnittlichen L1/L2-AP um 5,75/5,99 verbessert, und das bei vernachlässigbarem Rechenaufwand.
Vision Restoration Module Um das Problem der Sehkorruption (Vision Corruption Issue) zu lösen, schlägt diese Forschung das Vision Restoration Module (VRM) vor. VRM erweitert das Aufnahmefeld des Backbone-Netzwerks durch die Wiederherstellung zuvor beschädigter Bereiche. VRM ist besonders hilfreich bei der Fahrzeugerkennung, wie im experimentellen Teil gezeigt.
Abbildung 2: Das RangePerception-Framework verwendet ein Entfernungsbild I als Eingabe und generiert dichte Vorhersagen. Um den Darstellungslerneffekt zu verbessern, integriert das Framework nacheinander VRM- und RAK-Module vor Range Backbone. Anschließend wird ein speziell entwickelter Redundancy Pruner verwendet, um Redundanz in tiefen Features zu beseitigen und so den Rechenaufwand für nachfolgende Region Proposal Network- und Nachbearbeitungsschichten zu reduzieren
Abbildung 1: (a-d) Beispielbilder des oberen LiDAR-Signals, dargestellt durch RV bzw. BEV. (e) Phänomene der räumlichen Fehlausrichtung. (f) Phänomene der Sehkorruption.
Abbildung 3: Der Range Aware Kernel zerlegt den Bereichsbildraum in mehrere Unterräume und überwindet das Problem der räumlichen Fehlausrichtung, indem er unabhängige Merkmale aus jedem Unterraum extrahiert.
Abbildung 5: Modul zur Wiederherstellung der Sehkraft. Durch Vordefinieren des Erholungswinkels δ konstruiert VRM einen erweiterten sphärischen Raum mit Azimutwinkeln θ ∈ [−δ, 2π + δ]. Dadurch wird das Problem der visuellen Verfälschung auf beiden Seiten des Bereichsbildes I gelöst, wodurch der Prozess der Merkmalsextraktion aus den Kanten von I erheblich vereinfacht wird. Experimentelle Ergebnisse: Ausrichtung und optische Schäden Rätsel. Durch die Einführung der RAK- und VRM-Technologie hat RangePerception hervorragende Erkennungsfähigkeiten für WOD unter Beweis gestellt und gleichzeitig sein effizientes und genaues praktisches Einsatzpotenzial unter Beweis gestellt .com/s/EJCl5kLxhHaa7lh98g2I6w
Das obige ist der detaillierte Inhalt vonNeue Range View3D-Erkennungsidee: RangePerception. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!