Originaltitel: GraphAlign: Enhancing Accurate Feature Alignment by Graph Matching for Multi-Modal 3D Object Detection
Der Inhalt, der neu geschrieben werden muss, ist: Papierlink: https://arxiv.org/pdf/2310.08261.pdf
Autor Zugehörigkeit: Beijing Jiaotong University Hebei University of Science and Technology Tsinghua University
Thesisidee:
LiDAR und Kameras sind komplementäre Sensoren für die 3D-Zielerkennung beim autonomen Fahren. Die Untersuchung unnatürlicher Wechselwirkungen zwischen Punktwolken und Bildern ist jedoch eine Herausforderung, und der Schlüssel liegt darin, wie man die Merkmalsausrichtung heterogener Modalitäten durchführt. Derzeit erreichen viele Methoden die Merkmalsausrichtung nur durch Projektionskalibrierung und ignorieren das Problem der Genauigkeitsfehler bei der Koordinatenkonvertierung zwischen Sensoren, was zu einer suboptimalen Leistung führt. In diesem Artikel wird eine genauere Feature-Alignment-Strategie namens GraphAlign für die 3D-Objekterkennung durch Graph-Matching vorgeschlagen. Konkret verschmilzt dieser Artikel die Bildmerkmale des semantischen Segmentierungsencoders im Bildzweig mit den Punktwolkenmerkmalen des 3D-sparse CNN im LiDAR-Zweig. Um den Rechenaufwand zu reduzieren, verwendet dieser Artikel die Berechnung des euklidischen Abstands, um die Beziehung zum nächsten Nachbarn im Unterraum der Punktwolkenmerkmale zu erstellen. Durch die Projektionskalibrierung zwischen dem Bild und der Punktwolke werden die nächsten Nachbarn der Punktwolkenmerkmale auf die Bildmerkmale projiziert. Anschließend suchen wir nach einer geeigneteren Merkmalsausrichtung, indem wir den nächsten Nachbarn einer einzelnen Punktwolke mehreren Bildern zuordnen. Darüber hinaus bietet dieses Papier auch ein Selbstaufmerksamkeitsmodul, um das Gewicht wichtiger Beziehungen zu erhöhen und die Merkmalsausrichtung zwischen heterogenen Modalitäten zu optimieren. Im nuScenes-Benchmark wurde eine große Anzahl von Experimenten durchgeführt, um die Wirksamkeit und Effizienz des in diesem Artikel vorgeschlagenen GraphAlign zu beweisen. , um das Problem der Fehlausrichtung bei der multimodalen 3D-Objekterkennung zu lösen.
In diesem Artikel werden die Module Graph Feature Alignment (GFA) und Self-Attention Feature Alignment (SAFA) vorgeschlagen, um eine präzise Ausrichtung von Bildmerkmalen und Punktwolkenmerkmalen zu erreichen, wodurch Punktwolken und Merkmalsausrichtung zwischen Bildmodalitäten weiter verbessert und dadurch die Erkennungsgenauigkeit verbessert werden können . Durch die Durchführung von Experimenten mit zwei Benchmarks, KITTI und nuScenes, beweisen wir, dass GraphAlign die Genauigkeit der Punktwolkenerkennung effektiv verbessern kann, insbesondere bei der Zielerkennung über große Entfernungen.
Netzwerkdesign:
Abbildung 1. Funktionen Vergleich von Ausrichtungsstrategien
(a) Projektionsbasierte Methoden können schnell Beziehungen zwischen Modalmerkmalen herstellen, können jedoch aufgrund von Sensorfehlern unter einer Fehlausrichtung leiden. (b) Aufmerksamkeitsbasierte Methoden behalten semantische Informationen durch Lernen der Ausrichtung, sind jedoch rechenintensiv. (c) Das in diesem Artikel vorgeschlagene GraphAlign verwendet eine graphbasierte Merkmalsausrichtung, um sinnvollere Ausrichtungen zwischen Modalitäten abzugleichen, wodurch der Rechenaufwand reduziert und die Genauigkeit verbessert wird.
Abbildung 2. Das Framework von GraphAlign.
Auf Chinesisch wie folgt umgeschrieben: Es besteht aus dem Modul „Graph Feature Alignment“ (GFA) und dem Modul „Self-Attention Feature Alignment“ (SAFA). Das GFA-Modul empfängt Bild- und Punktwolkenmerkmale als Eingabe, verwendet eine Projektionskalibrierungsmatrix, um 3D-Positionen in 2D-Pixelpositionen umzuwandeln, erstellt lokale Nachbarschaftsinformationen, um nächste Nachbarn zu finden, und kombiniert Bild- und Punktwolkenmerkmale. Das SAFA-Modul modelliert die Kontextbeziehung zwischen K nächsten Nachbarn durch den Selbstaufmerksamkeitsmechanismus, um die Bedeutung zusammengeführter Merkmale zu erhöhen, und wählt schließlich die repräsentativsten Merkmale aus
Abbildung 3. GFA-Verarbeitungsablauf
(a) Sensorgenauigkeit Fehler, der zu einer Fehlausrichtung führt. (b) GFA stellt Nähebeziehungen durch Diagramme in Punktwolkenmerkmalen her. (c) Dieser Artikel projiziert Punktwolkenmerkmale auf Bildmerkmale und ermittelt die K nächsten Nachbarn von Bildmerkmalen. (d) In diesem Artikel wird eine Eins-zu-viele-Fusion durchgeführt, insbesondere durch die Fusion jedes einzelnen Punktwolkenmerkmals mit K benachbarten Bildmerkmalen, um eine bessere Ausrichtung zu erreichen.
Abbildung 4. SAFA-Modulprozess
Wir haben die Head- und Max-Module vereinfacht. Der Zweck des SAFA-Moduls besteht darin, die globalen Kontextinformationen zwischen K-Nachbarn zu verbessern, um die Darstellung fusionierter Features zu verbessern
Experimentelle Ergebnisse:
Zitat:
Song, Z., Wei , H., Bai, L., Yang, L., & Jia, C. (2023). GraphAlign: Verbesserung der präzisen Feature-Ausrichtung durch Graph-Matching für die multimodale 3D-Objekterkennung
Originallink: https://mp.weixin.qq.com/s/eN6THT2azHvoleT1F6MoSw
Das obige ist der detaillierte Inhalt vonPräzise Merkmalsausrichtung zur Verbesserung der multimodalen 3D-Objekterkennung: Anwendung von GraphAlign. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!