Inhaltsverzeichnis
Der Autor persönlich versteht
TransFusion:
Hauptbeitrag:
Experimente
Datensätze und Metriken
Vergleich mit modernsten Methoden
Ablationsexperiment
Fazit
DeepInteraction:
Moduldetails
Tabelle 1 Vergleich mit modernsten Methoden auf dem nuScenes-TestsetWie in Tabelle 1 gezeigt, erreicht DeepInteraction State-of-the-Art-Methoden. Spitzenleistung in allen Umgebungen. Tabelle 2 vergleicht die auf NVIDIA V100, A6000 und A100 getesteten Inferenzgeschwindigkeiten. Es ist ersichtlich, dass trotz hoher Leistung immer noch eine hohe Inferenzgeschwindigkeit aufrechterhalten wird, was bestätigt, dass diese Methode einen besseren Kompromiss zwischen Erkennungsleistung und Inferenzgeschwindigkeit erzielt. Tabelle 2: Vergleich der Inferenzgeschwindigkeit ein Hybriddesign: Eine normale DETR-Decoderschicht wird zum Aggregieren von Features in der LIDAR-Darstellung verwendet, und ein multimodaler interaktiver Vorhersagedecoder (MMPI) wird zum Aggregieren von Features in der Bilddarstellung (zweite Zeile) verwendet. MMPI ist deutlich besser als DETR und verbessert 1,3 % mAP und 1,0 % NDS, mit Flexibilität bei der Designkombination. Tabelle 3(c) untersucht weiter den Einfluss verschiedener Decoderschichten auf die Erkennungsleistung. Es zeigt sich, dass sich die Leistung weiter verbessert, wenn 5 Decoderschichten hinzugefügt werden. Schließlich wurden verschiedene Kombinationen von Abfragezahlen, die beim Training und Testen verwendet wurden, verglichen. Bei verschiedenen Auswahlmöglichkeiten war die Leistung stabil, aber 200/300 wurde als optimale Einstellung für Training/Tests verwendet. Tabelle 3: Ablationsexperiment des Decoders die Leistung erheblich verbessern; (2) MMRI und IML können gut zusammenarbeiten, um die Leistung weiter zu verbessern. Wie aus Tabelle 4(b) ersichtlich ist, ist das Stapeln von Encoderschichten für iteratives MMRI von Vorteil.
Ablationsexperiment des Lidar-Backbone-Netzwerks
Schlussfolgerung
Zusammenfassung der beiden Papiere:
Heim Technologie-Peripheriegeräte KI Wie kann ein Transformator verwendet werden, um die visuellen Merkmale des Lidar-Millimeterwellenradars effektiv zu korrelieren?

Wie kann ein Transformator verwendet werden, um die visuellen Merkmale des Lidar-Millimeterwellenradars effektiv zu korrelieren?

Apr 19, 2024 pm 04:01 PM
3d 检测

Der Autor persönlich versteht

Eine der Grundaufgaben des autonomen Fahrens ist die dreidimensionale Zielerkennung, und viele Methoden werden mittlerweile auf Basis von Multisensor-Fusionsmethoden implementiert. Warum ist also eine Multisensorfusion erforderlich? Ob Lidar- und Kamerafusion oder Millimeterwellenradar- und Kamerafusion, der Hauptzweck besteht darin, die komplementäre Verbindung zwischen Punktwolken und Bildern zu nutzen, um die Genauigkeit der Zielerkennung zu verbessern. Mit der kontinuierlichen Anwendung der Transformer-Architektur im Bereich Computer Vision haben auf Aufmerksamkeitsmechanismen basierende Methoden die Genauigkeit der Fusion zwischen mehreren Sensoren verbessert. Die beiden gemeinsamen Arbeiten basieren auf dieser Architektur und schlagen neuartige Fusionsmethoden vor, um die nützlichen Informationen ihrer jeweiligen Modalitäten besser zu nutzen und eine bessere Fusion zu erreichen.

TransFusion:

Hauptbeitrag

Lidar und Kamera sind zwei wichtige dreidimensionale Zielerkennungssensoren beim autonomen Fahren. Bei der Sensorfusion stehen sie jedoch hauptsächlich vor dem Problem der geringen Erkennungsgenauigkeit, die durch schlechte Bildstreifen verursacht wird Bedingungen. . Die punktbasierte Fusionsmethode besteht darin, Lidar und Kameras durch harte Assoziation zu verschmelzen, was zu einigen Problemen führt: a) Durch einfaches Zusammenfügen von Punktwolken- und Bildmerkmalen wird die Erkennungsleistung bei Vorhandensein von Bildmerkmalen geringer Qualität erheblich beeinträchtigt ;b) Das Finden harter Korrelationen zwischen spärlichen Punktwolken und Bildern verschwendet hochwertige Bildmerkmale und ist schwer auszurichten. Um dieses Problem zu lösen, wird eine Soft-Assoziationsmethode vorgeschlagen. Bei dieser Methode werden Lidar und Kamera als zwei unabhängige Detektoren behandelt, die miteinander kooperieren und die Vorteile der beiden Detektoren voll ausnutzen. Zunächst wird ein herkömmlicher Objektdetektor verwendet, um Objekte zu erkennen und Begrenzungsrahmen zu generieren. Anschließend werden die Begrenzungsrahmen und Punktwolken abgeglichen, um eine Bewertung dafür zu erhalten, welchem ​​Begrenzungsrahmen jeder Punkt zugeordnet ist. Abschließend werden die den Randkästen entsprechenden Bildmerkmale mit den durch die Punktwolke generierten Merkmalen verschmolzen. Mit dieser Methode kann der durch schlechte Bildstreifenbedingungen verursachte Rückgang der Erkennungsgenauigkeit wirksam vermieden werden. Gleichzeitig wird in diesem Artikel TransFusion vorgestellt, ein Fusionsframework für Lidar und Kameras, um das Korrelationsproblem zwischen den beiden Sensoren zu lösen. Die Hauptbeiträge sind wie folgt:

Schlagen Sie ein transformatorbasiertes 3D-Erkennungsfusionsmodell von Lidar und Kamera vor, das eine hervorragende Robustheit gegenüber schlechter Bildqualität und Sensorfehlausrichtung zeigt;
  • Führt mehrere Methoden zur Objektabfrage ein. Einfache, aber effektive Anpassungen zur Verbesserung die Qualität der anfänglichen Begrenzungsrahmenvorhersagen für die Bildfusion und ein bildgesteuertes Abfrageinitialisierungsmodul, das für den Umgang mit Objekten entwickelt wurde, die in Punktwolken schwer zu erkennen sind
  • implementiert nicht nur eine erweiterte 3D-Erkennung in der Leistung von nuScenes und erweitert das Modell auch um dreidimensionale Trackingaufgaben erfolgreich gelöst und gute Ergebnisse erzielt.
Detaillierte Modulerklärung

Wie kann ein Transformator verwendet werden, um die visuellen Merkmale des Lidar-Millimeterwellenradars effektiv zu korrelieren?Abbildung 1 Das Gesamtgerüst von TransFusion

Um die oben genannten Bildeintragsunterschiede und Korrelationsprobleme zwischen verschiedenen Sensoren zu lösen, wird ein Transformer-basiertes Fusionsgerüst – TransFusion – vorgeschlagen . Das Modell basiert auf standardmäßigen 3D- und 2D-Backbone-Netzwerken, um LiDAR BEV-Funktionen und Bildfunktionen zu extrahieren, und besteht dann aus zwei Schichten von Transformer-Decodern: Der Decoder der ersten Ebene verwendet spärliche Punktwolken, um anfängliche Begrenzungsrahmen zu generieren; Layer Die Objektabfrage wird mit der Bildmerkmalsabfrage kombiniert, um bessere Erkennungsergebnisse zu erzielen. Der räumliche Modulationsaufmerksamkeitsmechanismus (SMCA) und die bildgesteuerte Abfragestrategie werden ebenfalls eingeführt, um die Erkennungsgenauigkeit zu verbessern. Durch die Erkennung dieses Modells können bessere Bildmerkmale und Erkennungsgenauigkeit erzielt werden.

Abfrageinitialisierung

Wie kann ein Transformator verwendet werden, um die visuellen Merkmale des Lidar-Millimeterwellenradars effektiv zu korrelieren?

LiDAR-Kamera-Fusion

Wenn ein Objekt nur eine kleine Anzahl von LIDAR-Punkten enthält, kann nur die gleiche Anzahl von Bildmerkmalen erhalten werden, wodurch hochwertige Bildsemantikinformationen verschwendet werden . Daher behält dieser Artikel alle Bildmerkmale bei und verwendet den Kreuzaufmerksamkeitsmechanismus und die adaptive Methode in Transformer, um eine Merkmalsfusion durchzuführen, sodass das Netzwerk adaptiv Standort und Informationen aus dem Bild extrahieren kann. Um das Problem der räumlichen Fehlausrichtung von LiDAR-BEV-Merkmalen und Bildmerkmalen, die von verschiedenen Sensoren stammen, zu lindern, wurde ein

Räumlich moduliertes Kreuzaufmerksamkeitsmodul (SMCA)

entwickelt, das eine 2D-zirkuläre Gaußsche Kurve um das 2D-Zentrum jeder Abfrageprojektion weiterleitet Maskengewichte erregen Aufmerksamkeit.

Bildgesteuerte Abfrageinitialisierung (Bildgesteuerte Abfrageinitialisierung)

Wie kann ein Transformator verwendet werden, um die visuellen Merkmale des Lidar-Millimeterwellenradars effektiv zu korrelieren?Abbildung 2 Bildgesteuertes Abfragemodul

Dieses Modul verwendet LIDAR- und Bildinformationen gleichzeitig als Objektabfragen, indem es Bildmerkmale und LIDAR-BEV-Merkmale in das Netzwerk des Cross-Attention-Mechanismus sendet, sie auf die BEV-Ebene projiziert und fusionierte BEV-Merkmale generiert. Wie in Abbildung 2 dargestellt, werden die Multi-View-Bildmerkmale zunächst als Schlüsselwert des Cross-Attention-Mechanismus-Netzwerks entlang der Höhenachse gefaltet, und die Lidar-BEV-Merkmale werden als Abfragen an das Aufmerksamkeitsnetzwerk gesendet, um die fusionierten BEV-Merkmale zu erhalten. Diese werden für die Heatmap-Vorhersage verwendet und mit der reinen LIDAR-Heatmap Ŝ gemittelt, um die endgültige Heatmap Ŝ zur Auswahl und Initialisierung der Zielabfrage zu erhalten. Solche Operationen ermöglichen es dem Modell, Ziele zu erkennen, die in Lidar-Punktwolken schwer zu erkennen sind.

Experimente

Datensätze und Metriken

Der Datensatz nuScenes ist ein umfangreicher Datensatz für autonomes Fahren zur 3D-Erkennung und -Verfolgung, der 700, 150 und 150 Szenen für Training, Validierung und Tests enthält. Jeder Frame enthält eine Lidar-Punktwolke und sechs Kalibrierungsbilder, die ein horizontales 360-Grad-Sichtfeld abdecken. Für die 3D-Erkennung sind die Hauptmetriken die mittlere durchschnittliche Präzision (mAP) und der nuScenes-Erkennungsscore (NDS). mAP wird durch den BEV-Mittelabstand und nicht durch 3D-IoU definiert, und der endgültige mAP wird durch Mittelung der Entfernungsschwellenwerte von 0,5 m, 1 m, 2 m, 4 m für 10 Kategorien berechnet. NDS ist ein umfassendes Maß für mAP und andere Attributmaße, einschließlich Übersetzung, Skalierung, Ausrichtung, Geschwindigkeit und anderer Boxattribute. .

Der Waymo-Datensatz umfasst 798 Szenen für das Training und 202 Szenen für die Validierung. Die offiziellen Indikatoren sind mAP und mAPH (mAP gewichtet nach Kursgenauigkeit). mAP und mAPH werden auf der Grundlage von 3D-IoU-Schwellenwerten definiert, die 0,7 für Fahrzeuge und 0,5 für Fußgänger und Radfahrer betragen. Diese Metriken sind weiter in zwei Schwierigkeitsstufen unterteilt: STUFE 1 für Begrenzungsrahmen mit mehr als 5 LIDAR-Punkten und STUFE 2 für Begrenzungsrahmen mit mindestens einem LIDAR-Punkt. Im Gegensatz zu den 360-Grad-Kameras von nuScenes decken die Kameras von Waymo nur etwa 250 Grad horizontal ab.

Training Verwenden Sie im nuScenes-Datensatz DLA34 als 2D-Backbone-Netzwerk des Bildes und frieren Sie seine Gewichte ein. Stellen Sie die Bildgröße auf 448 × 800 ein. Wählen Sie VoxelNet als 3D-Backbone-Netzwerk des Lidar aus. Der Trainingsprozess ist in zwei Phasen unterteilt: Die erste Phase verwendet nur LiDAR-Daten als Eingabe und trainiert das 3D-Backbone 20 Mal mit dem First-Layer-Decoder und dem FFN-Feedforward-Netzwerk, um anfängliche 3D-Bounding-Box-Vorhersagen zu generieren -Kamera Die Fusions- und bildgeführten Abfrageinitialisierungsmodule werden sechsmal trainiert. Das linke Bild ist die Transformator-Decoder-Schichtarchitektur, die für die anfängliche Bounding-Box-Vorhersage verwendet wird; das rechte Bild ist die Transformator-Decoder-Schichtarchitektur, die für die LiDAR-Kamera-Fusion verwendet wird.

Wie kann ein Transformator verwendet werden, um die visuellen Merkmale des Lidar-Millimeterwellenradars effektiv zu korrelieren?

Abbildung 3 Decoder-Layer-Design

Vergleich mit modernsten Methoden

Vergleichen Sie zunächst die Leistung von TransFusion und anderen SOTA-Methoden bei 3D-Objekterkennungsaufgaben. Tabelle 1 unten zeigt die Ergebnisse in der nuScenes-Testsatz Es ist ersichtlich, dass diese Methode zu diesem Zeitpunkt die beste Leistung erzielt hat (mAP beträgt 68,9 %, NDS beträgt 71,7 %). TransFusion-L verwendet zur Erkennung nur Lidar und seine Erkennungsleistung ist deutlich besser als bei früheren Single-Modal-Erkennungsmethoden und übertrifft sogar einige Multi-Modal-Methoden. Dies ist hauptsächlich auf den neuen Assoziationsmechanismus und die Abfrageinitialisierung zurückzuführen. Tabelle 2 zeigt die Ergebnisse von LEVEL 2 MAPH auf dem Waymo-Validierungssatz. Tabelle 1: Vergleich mit der SOTA-Methode im nuScenes-Test Entwickelt, um die Robustheit zu überprüfen. Die drei Fusionsframeworks sind Punkt-für-Punkt-Spleißen und Fusion von Lidar- und Bildmerkmalen (CC), Point Enhancement Fusion Strategy (PA) und TransFusion. Wie in Tabelle 3 gezeigt, führt die TransFusion-Methode durch die Aufteilung des nuScenes-Datensatzes in Tag und Nacht zu einer größeren Leistungsverbesserung bei Nacht. Während des Inferenzprozesses werden die Merkmale des Bildes auf Null gesetzt, um den Effekt zu erzielen, dass mehrere Bilder in jedem Frame zufällig verworfen werden. Wie in Tabelle 4 zu sehen ist, nimmt die Erkennungsleistung ab, wenn einige Bilder während des Inferenzprozesses nicht verfügbar sind deutlich, wobei der mAP von CC und PA um 23,8 % bzw. 17,2 % sank, während TransFusion bei 61,7 % blieb. Der unkalibrierte Sensor wirkt sich auch stark auf die Leistung der 3D-Zielerkennung aus. Die experimentelle Einstellung fügt der Transformationsmatrix von der Kamera zum Lidar zufällig einen Verschiebungsversatz hinzu, wie in Abbildung 4 dargestellt. Wenn die beiden Sensoren um 1 m versetzt sind, beträgt der mAP von TransFusion Es verringerte sich nur um 0,49 %, während der mAP von PA und CC um 2,33 % bzw. 2,85 % abnahm.

Wie kann ein Transformator verwendet werden, um die visuellen Merkmale des Lidar-Millimeterwellenradars effektiv zu korrelieren?

Tabelle 3 Karte bei Tag und Nacht

Wie kann ein Transformator verwendet werden, um die visuellen Merkmale des Lidar-Millimeterwellenradars effektiv zu korrelieren?

Tabelle 4 Karte bei unterschiedlicher Anzahl von Bildern

Wie kann ein Transformator verwendet werden, um die visuellen Merkmale des Lidar-Millimeterwellenradars effektiv zu korrelieren?

Abbildung 4 Karte bei Sensorfehlausrichtung

Ablationsexperiment

nach Tabelle 5 d )-f) Es kann Aus den Ergebnissen geht hervor, dass die Erkennungsleistung ohne Abfrageinitialisierung stark abnimmt. Obwohl eine Erhöhung der Anzahl der Trainingsrunden und der Decoderschichten die Leistung verbessern kann, kann dennoch nicht der ideale Effekt erzielt werden, was auch bedeutet, dass dies bewiesen ist Von der Seite aus kann die vorgeschlagene Initialisierungsabfragestrategie die Anzahl der Netzwerkschichten reduzieren. Wie in Tabelle 6 gezeigt, bringen Bildmerkmalsfusion und bildgesteuerte Abfrageinitialisierung mAP-Gewinne von 4,8 % bzw. 1,6 %. In Tabelle 7 wurde durch den Vergleich der Genauigkeit in verschiedenen Bereichen die Erkennungsleistung von TransFusion bei schwer zu erkennenden Objekten oder abgelegenen Gebieten im Vergleich zur reinen Lidar-Erkennung verbessert.

Wie kann ein Transformator verwendet werden, um die visuellen Merkmale des Lidar-Millimeterwellenradars effektiv zu korrelieren?

Tabelle 5 Ablationsexperiment des Abfrageinitialisierungsmoduls

Wie kann ein Transformator verwendet werden, um die visuellen Merkmale des Lidar-Millimeterwellenradars effektiv zu korrelieren?

Tabelle 6 Ablationsexperiment des Fusionsteils

Wie kann ein Transformator verwendet werden, um die visuellen Merkmale des Lidar-Millimeterwellenradars effektiv zu korrelieren?

Tabelle 7 Abstand zwischen dem Objektzentrum und dem Ego-Fahrzeug (in Metern)

Fazit

Ein effektives und robustes Transformer-basiertes Lidar-Kamera-3D-Erkennungs-Framework ist mit einem weichen Korrelationsmechanismus ausgestattet, der den Standort und die Informationen, die aus dem Bild gewonnen werden sollen, adaptiv bestimmen kann. TransFusion erzielt hochmoderne Ergebnisse in den nuScenes-Erkennungs- und Tracking-Bestenlisten und zeigt konkurrenzfähige Ergebnisse im Waymo-Erkennungs-Benchmark. Umfangreiche Ablationsexperimente belegen die Robustheit dieser Methode gegenüber schlechten Bildbedingungen.

DeepInteraction:

Hauptbeitrag:

Das Hauptproblem besteht darin, dass bestehende multimodale Fusionsstrategien modalitätsspezifische nützliche Informationen ignorieren, was letztendlich die Leistung des Modells beeinträchtigt. Punktwolken liefern notwendige Positionierungs- und geometrische Informationen bei niedrigen Auflösungen, und Bilder liefern umfassende Erscheinungsbildinformationen bei hohen Auflösungen. Daher ist die modalübergreifende Informationsfusion besonders wichtig, um die Leistung der 3D-Zielerkennung zu verbessern. Das vorhandene Fusionsmodul, wie in Abbildung 1(a) dargestellt, integriert die Informationen der beiden Modalitäten in einen einheitlichen Netzwerkraum. Dadurch wird jedoch verhindert, dass einige Informationen in eine einheitliche Darstellung integriert werden, wodurch einige der spezifischen Informationen reduziert werden . Repräsentative Vorteile der Modalität. Um die oben genannten Einschränkungen zu überwinden, schlägt der Artikel ein neues modales Interaktionsmodul vor (Abbildung 1(b)). Die Schlüsselidee besteht darin, zwei modalitätsspezifische Darstellungen zu lernen und aufrechtzuerhalten, um eine Interaktion zwischen Modalitäten zu erreichen. Die Hauptbeiträge sind wie folgt:

  • schlägt eine neue modale Interaktionsstrategie für die multimodale 3D-Zielerkennung vor, die darauf abzielt, die grundlegende Einschränkung früherer modaler Fusionsstrategien zu lösen, die in jeder Modalität nützliche Informationen verlieren;
  • entwarf eine DeepInteraction-Architektur mit ein interaktiver Encoder mit multimodalen Merkmalen und ein interaktiver Decoder mit multimodaler Merkmalsvorhersage.

Wie kann ein Transformator verwendet werden, um die visuellen Merkmale des Lidar-Millimeterwellenradars effektiv zu korrelieren?

Abbildung 1 Verschiedene Fusionsstrategien

Moduldetails

Interaktiver Encoder mit multimodaler Darstellung Passen Sie den Encoder an eine Multiple-Input-Multiple-Output-Struktur (MIMO) an: Trennen Sie die Lidar- und Kamera-Backbones Die extrahierten zwei modalitätsspezifischen Szeneninformationen werden als Eingabe verwendet und zwei erweiterte Merkmalsinformationen werden generiert. Jede Encoderschicht umfasst: i) multimodale Merkmalsinteraktion (MMRI); ii) intramodales Merkmalslernen iii) Darstellungsintegration;

Wie kann ein Transformator verwendet werden, um die visuellen Merkmale des Lidar-Millimeterwellenradars effektiv zu korrelieren?

Abbildung 2 Multimodales Darstellungsinteraktionsmodul

Wie kann ein Transformator verwendet werden, um die visuellen Merkmale des Lidar-Millimeterwellenradars effektiv zu korrelieren?

Abbildung 3: Interaktives Modul für multimodale Vorhersage

Wie kann ein Transformator verwendet werden, um die visuellen Merkmale des Lidar-Millimeterwellenradars effektiv zu korrelieren?

Experimentelle Details

Das Backbone-Netzwerk des Bildes ist ResNet50. Um Rechenkosten zu sparen, wird die Größe des Eingabebildes vor dem Eintritt in das Netzwerk auf die Hälfte der Originalgröße geändert und die Gewichte der Bildzweige werden dabei eingefroren Ausbildung. Die Voxelgröße ist auf (0,075 m, 0,075 m, 0,2 m) eingestellt, der Erkennungsbereich ist auf [-54 m, 54 m] für die X-Achse und Y-Achse und [-5 m, 3 m] für die Z-Achse eingestellt. Entwerfen Sie 2 Schichten Encoderschichten und 5 kaskadierte Decoderschichten. Darüber hinaus werden zwei Online-Übermittlungstestmodelle eingerichtet: Testzeiterhöhung (TTA) und Modellintegration. Die beiden Einstellungen heißen DeepInteraction-large bzw. DeepInteraction-e. Unter anderem verwendet DeepInteraction-large Swin-Tiny als Bild-Backbone-Netzwerk und verdoppelt die Anzahl der Kanäle des Faltungsblocks im Lidar-Backbone-Netzwerk. Die Voxelgröße ist auf [0,5 m, 0,5 m, 0,2 m] eingestellt Bidirektionales Umdrehen und Drehen des Gierwinkels [0°, ±6,25°, ±12,5°], um die Testzeit zu verlängern. DeepInteraction-e integriert mehrere DeepInteraction-große Modelle und die Eingabe-Lidar-BEV-Gittergrößen sind [0,5 m, 0,5 m] und [1,5 m, 1,5 m]. Wie kann ein Transformator verwendet werden, um die visuellen Merkmale des Lidar-Millimeterwellenradars effektiv zu korrelieren?

Datenerweiterung gemäß der Konfiguration von TransFusion: Verwendung einer zufälligen Rotation im Bereich [-π/4,π/4], zufälliger Skalierungskoeffizienten [0,9,1,1], dreiachsiger zufälliger Translation und zufälliger horizontaler Drehung mit einer Standardabweichung von 0,5 , verwendet auch klassenbalanciertes Resampling in CBGS, um die Klassenverteilung von nuScenes auszugleichen. Es wird die gleiche zweistufige Trainingsmethode wie bei TransFusion verwendet, wobei TransFusion-L als Basis für das reine Lidar-Training verwendet wird. Der Adam-Optimierer verwendet eine Single-Cycle-Lernratenstrategie mit einer maximalen Lernrate von 1 × 10−3, einer Gewichtsdämpfung von 0,01 und einem Impuls von 0,85 bis 0,95 und folgt CBGS. Das Lidar-Basistraining umfasst 20 Runden, die Lidar-Bildfusion 6 Runden, die Stapelgröße 16 und für das Training werden 8 NVIDIA V100-GPUs verwendet.

Wie kann ein Transformator verwendet werden, um die visuellen Merkmale des Lidar-Millimeterwellenradars effektiv zu korrelieren?

Vergleich mit modernsten Methoden

Wie kann ein Transformator verwendet werden, um die visuellen Merkmale des Lidar-Millimeterwellenradars effektiv zu korrelieren?

Tabelle 1 Vergleich mit modernsten Methoden auf dem nuScenes-TestsetWie in Tabelle 1 gezeigt, erreicht DeepInteraction State-of-the-Art-Methoden. Spitzenleistung in allen Umgebungen. Tabelle 2 vergleicht die auf NVIDIA V100, A6000 und A100 getesteten Inferenzgeschwindigkeiten. Es ist ersichtlich, dass trotz hoher Leistung immer noch eine hohe Inferenzgeschwindigkeit aufrechterhalten wird, was bestätigt, dass diese Methode einen besseren Kompromiss zwischen Erkennungsleistung und Inferenzgeschwindigkeit erzielt. Tabelle 2: Vergleich der Inferenzgeschwindigkeit ein Hybriddesign: Eine normale DETR-Decoderschicht wird zum Aggregieren von Features in der LIDAR-Darstellung verwendet, und ein multimodaler interaktiver Vorhersagedecoder (MMPI) wird zum Aggregieren von Features in der Bilddarstellung (zweite Zeile) verwendet. MMPI ist deutlich besser als DETR und verbessert 1,3 % mAP und 1,0 % NDS, mit Flexibilität bei der Designkombination. Tabelle 3(c) untersucht weiter den Einfluss verschiedener Decoderschichten auf die Erkennungsleistung. Es zeigt sich, dass sich die Leistung weiter verbessert, wenn 5 Decoderschichten hinzugefügt werden. Schließlich wurden verschiedene Kombinationen von Abfragezahlen, die beim Training und Testen verwendet wurden, verglichen. Bei verschiedenen Auswahlmöglichkeiten war die Leistung stabil, aber 200/300 wurde als optimale Einstellung für Training/Tests verwendet. Tabelle 3: Ablationsexperiment des Decoders die Leistung erheblich verbessern; (2) MMRI und IML können gut zusammenarbeiten, um die Leistung weiter zu verbessern. Wie aus Tabelle 4(b) ersichtlich ist, ist das Stapeln von Encoderschichten für iteratives MMRI von Vorteil.

Wie kann ein Transformator verwendet werden, um die visuellen Merkmale des Lidar-Millimeterwellenradars effektiv zu korrelieren?

Tabelle 4 Ablationsexperiment des Encoders

Ablationsexperiment des Lidar-Backbone-Netzwerks

Verwendung von zwei verschiedenen Lidar-Backbone-Netzwerken: PointPillar und VoxelNet, um die Allgemeingültigkeit des Frameworks zu überprüfen. Stellen Sie für PointPillars die Voxelgröße auf (0,2 m, 0,2 m) ein, während die restlichen Einstellungen dieselben wie bei DeepInteraction-base bleiben. Aufgrund der vorgeschlagenen multimodalen Interaktionsstrategie zeigt DeepInteraction bei Verwendung eines der beiden Backbones konsistente Verbesserungen gegenüber der reinen Lidar-Basislinie (5,5 % mAP für das voxelbasierte Backbone und 4,4 % mAP für das säulenbasierte Backbone). Dies spiegelt die Vielseitigkeit von DeepInteraction zwischen verschiedenen Punktwolken-Encodern wider.

Wie kann ein Transformator verwendet werden, um die visuellen Merkmale des Lidar-Millimeterwellenradars effektiv zu korrelieren?

Tabelle 5 Bewertung verschiedener Lidar-Backbones

Schlussfolgerung

In dieser Arbeit wird eine neue 3D-Objekterkennungsmethode DeepInteraction vorgeschlagen, um die inhärenten multimodalen komplementären Eigenschaften zu untersuchen. Die Schlüsselidee besteht darin, zwei modalitätsspezifische Darstellungen beizubehalten und ein Zusammenspiel zwischen ihnen für das Lernen von Darstellungen und die prädiktive Dekodierung herzustellen. Diese Strategie ist speziell darauf ausgelegt, die grundlegende Einschränkung bestehender einseitiger Fusionsmethoden zu beseitigen, nämlich dass die Bilddarstellung aufgrund der zusätzlichen Quellzeichenverarbeitung nicht ausreichend genutzt wird.

Zusammenfassung der beiden Papiere:

Die beiden oben genannten Papiere sind beide dreidimensionale Zielerkennung basierend auf Lidar und Kamerafusion. Aus DeepInteraction ist auch ersichtlich, dass es auf weitere Arbeiten von TransFusion zurückgreift. Aus diesen beiden Arbeiten können wir schließen, dass eine Richtung der Multisensorfusion darin besteht, effizientere dynamische Fusionsmethoden zu erforschen, um sich auf effektivere Informationen verschiedener Modalitäten zu konzentrieren. Selbstverständlich basiert dies alles auf qualitativ hochwertigen Informationen in beiden Modalitäten. Die multimodale Fusion wird in zukünftigen Bereichen wie autonomem Fahren und intelligenten Robotern sehr wichtige Anwendungen haben. Da die aus verschiedenen Modalitäten extrahierten Informationen immer umfangreicher werden, stehen uns auch immer mehr Informationen zur Verfügung eine Frage, über die es sich zu denken lohnt.

Das obige ist der detaillierte Inhalt vonWie kann ein Transformator verwendet werden, um die visuellen Merkmale des Lidar-Millimeterwellenradars effektiv zu korrelieren?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
2 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Repo: Wie man Teamkollegen wiederbelebt
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Abenteuer: Wie man riesige Samen bekommt
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Warum ist Gaussian Splatting beim autonomen Fahren so beliebt, dass NeRF allmählich aufgegeben wird? Warum ist Gaussian Splatting beim autonomen Fahren so beliebt, dass NeRF allmählich aufgegeben wird? Jan 17, 2024 pm 02:57 PM

Oben geschrieben und persönliches Verständnis des Autors. Dreidimensionales Gaussplatting (3DGS) ist eine transformative Technologie, die in den letzten Jahren in den Bereichen explizite Strahlungsfelder und Computergrafik entstanden ist. Diese innovative Methode zeichnet sich durch die Verwendung von Millionen von 3D-Gaußkurven aus, was sich stark von der Neural Radiation Field (NeRF)-Methode unterscheidet, die hauptsächlich ein implizites koordinatenbasiertes Modell verwendet, um räumliche Koordinaten auf Pixelwerte abzubilden. Mit seiner expliziten Szenendarstellung und differenzierbaren Rendering-Algorithmen garantiert 3DGS nicht nur Echtzeit-Rendering-Fähigkeiten, sondern führt auch ein beispielloses Maß an Kontrolle und Szenenbearbeitung ein. Dies positioniert 3DGS als potenziellen Game-Changer für die 3D-Rekonstruktion und -Darstellung der nächsten Generation. Zu diesem Zweck geben wir erstmals einen systematischen Überblick über die neuesten Entwicklungen und Anliegen im Bereich 3DGS.

Lösung für i7-7700, kein Upgrade auf Windows 11 möglich Lösung für i7-7700, kein Upgrade auf Windows 11 möglich Dec 26, 2023 pm 06:52 PM

Die Leistung des i77700 reicht völlig aus, um Win11 auszuführen, aber Benutzer stellen fest, dass ihr i77700 nicht auf Win11 aktualisiert werden kann. Dies ist hauptsächlich auf die von Microsoft auferlegten Einschränkungen zurückzuführen, sodass sie es installieren können, solange sie diese Einschränkung überspringen. i77700 kann nicht auf win11 aktualisiert werden: 1. Weil Microsoft die CPU-Version begrenzt. 2. Nur die Intel-Versionen der achten Generation und höher können direkt auf Win11 aktualisiert werden. 3. Als 7. Generation kann der i77700 die Upgrade-Anforderungen von Win11 nicht erfüllen. 4. Der i77700 ist jedoch hinsichtlich der Leistung durchaus in der Lage, Win11 reibungslos zu nutzen. 5. Sie können also das Win11-Direktinstallationssystem dieser Site verwenden. 6. Nachdem der Download abgeschlossen ist, klicken Sie mit der rechten Maustaste auf die Datei und „laden“ sie. 7. Doppelklicken Sie, um den „One-Click“-Vorgang auszuführen

Die Sturzerkennung basiert auf der Erkennung menschlicher Skelettpunkte. Ein Teil des Codes wird mit Chatgpt vervollständigt Die Sturzerkennung basiert auf der Erkennung menschlicher Skelettpunkte. Ein Teil des Codes wird mit Chatgpt vervollständigt Apr 12, 2023 am 08:19 AM

Hallo zusammen. Heute möchte ich Ihnen ein Projekt zur Sturzerkennung vorstellen. Genauer gesagt handelt es sich um die Erkennung menschlicher Bewegungen auf der Grundlage von Skelettpunkten. Es ist grob in drei Schritte unterteilt: Erkennung des menschlichen Körpers, Punktaktionsklassifizierung des menschlichen Skeletts. Der Quellcode des Projekts wurde gepackt. Informationen zum Erhalt finden Sie am Ende des Artikels. 0. chatgpt Zuerst müssen wir den überwachten Videostream abrufen. Dieser Code ist relativ fest. Wir können chatgpt den von chatgpt geschriebenen Code direkt vervollständigen lassen. Wenn es jedoch später um geschäftliche Aufgaben geht, beispielsweise die Verwendung von Mediapipe zur Identifizierung menschlicher Skelettpunkte, ist der von chatgpt bereitgestellte Code falsch. Ich denke, dass chatgpt als Toolbox verwendet werden kann, die unabhängig von der Geschäftslogik sein kann. Sie können versuchen, es an c zu übergeben

Erfahren Sie mehr über 3D Fluent-Emojis in Microsoft Teams Erfahren Sie mehr über 3D Fluent-Emojis in Microsoft Teams Apr 24, 2023 pm 10:28 PM

Sie müssen bedenken, insbesondere wenn Sie Teams-Benutzer sind, dass Microsoft seiner arbeitsorientierten Videokonferenz-App eine neue Reihe von 3DFluent-Emojis hinzugefügt hat. Nachdem Microsoft letztes Jahr 3D-Emojis für Teams und Windows angekündigt hatte, wurden im Rahmen des Prozesses tatsächlich mehr als 1.800 bestehende Emojis für die Plattform aktualisiert. Diese große Idee und die Einführung des 3DFluent-Emoji-Updates für Teams wurden erstmals über einen offiziellen Blogbeitrag beworben. Das neueste Teams-Update bringt FluentEmojis in die App. Laut Microsoft werden uns die aktualisierten 1.800 Emojis täglich zur Verfügung stehen

CLIP-BEVFormer: Überwacht explizit die BEVFormer-Struktur, um die Leistung der Long-Tail-Erkennung zu verbessern CLIP-BEVFormer: Überwacht explizit die BEVFormer-Struktur, um die Leistung der Long-Tail-Erkennung zu verbessern Mar 26, 2024 pm 12:41 PM

Oben geschrieben und das persönliche Verständnis des Autors: Derzeit spielt das Wahrnehmungsmodul im gesamten autonomen Fahrsystem eine entscheidende Rolle Das Steuermodul im autonomen Fahrsystem trifft zeitnahe und korrekte Urteile und Verhaltensentscheidungen. Derzeit sind Autos mit autonomen Fahrfunktionen in der Regel mit einer Vielzahl von Dateninformationssensoren ausgestattet, darunter Rundumsichtkamerasensoren, Lidar-Sensoren und Millimeterwellenradarsensoren, um Informationen in verschiedenen Modalitäten zu sammeln und so genaue Wahrnehmungsaufgaben zu erfüllen. Der auf reinem Sehen basierende BEV-Wahrnehmungsalgorithmus wird von der Industrie aufgrund seiner geringen Hardwarekosten und einfachen Bereitstellung bevorzugt, und seine Ausgabeergebnisse können problemlos auf verschiedene nachgelagerte Aufgaben angewendet werden.

Kamera oder Lidar wählen? Eine aktuelle Übersicht über die Erzielung einer robusten 3D-Objekterkennung Kamera oder Lidar wählen? Eine aktuelle Übersicht über die Erzielung einer robusten 3D-Objekterkennung Jan 26, 2024 am 11:18 AM

0. Vorab geschrieben&& Persönliches Verständnis, dass autonome Fahrsysteme auf fortschrittlichen Wahrnehmungs-, Entscheidungs- und Steuerungstechnologien beruhen, indem sie verschiedene Sensoren (wie Kameras, Lidar, Radar usw.) verwenden, um die Umgebung wahrzunehmen, und Algorithmen und Modelle verwenden für Echtzeitanalysen und Entscheidungsfindung. Dies ermöglicht es Fahrzeugen, Verkehrszeichen zu erkennen, andere Fahrzeuge zu erkennen und zu verfolgen, das Verhalten von Fußgängern vorherzusagen usw. und sich so sicher an komplexe Verkehrsumgebungen anzupassen. Diese Technologie erregt derzeit große Aufmerksamkeit und gilt als wichtiger Entwicklungsbereich für die Zukunft des Transportwesens . eins. Aber was autonomes Fahren schwierig macht, ist herauszufinden, wie man dem Auto klarmachen kann, was um es herum passiert. Dies erfordert, dass der dreidimensionale Objekterkennungsalgorithmus im autonomen Fahrsystem Objekte in der Umgebung, einschließlich ihrer Standorte, genau wahrnehmen und beschreiben kann.

Das neueste Meisterwerk des MIT: Verwendung von GPT-3.5 zur Lösung des Problems der Erkennung von Zeitreihenanomalien Das neueste Meisterwerk des MIT: Verwendung von GPT-3.5 zur Lösung des Problems der Erkennung von Zeitreihenanomalien Jun 08, 2024 pm 06:09 PM

Heute möchte ich Ihnen einen letzte Woche vom MIT veröffentlichten Artikel vorstellen, in dem GPT-3.5-turbo verwendet wird, um das Problem der Erkennung von Zeitreihenanomalien zu lösen, und zunächst die Wirksamkeit von LLM bei der Erkennung von Zeitreihenanomalien überprüft wird. Im gesamten Prozess gibt es keine Feinabstimmung, und GPT-3.5-Turbo wird direkt zur Anomalieerkennung verwendet. Der Kern dieses Artikels besteht darin, wie man Zeitreihen in Eingaben umwandelt, die von GPT-3.5-Turbo erkannt werden können, und wie man sie entwirft Eingabeaufforderungen oder Pipelines, damit LLM die Anomalieerkennungsaufgabe lösen kann. Lassen Sie mich Ihnen diese Arbeit im Detail vorstellen. Titel des Bildpapiers: Largelingualmodelscanbezero-shotanomalydete

Paint 3D in Windows 11: Download-, Installations- und Nutzungshandbuch Paint 3D in Windows 11: Download-, Installations- und Nutzungshandbuch Apr 26, 2023 am 11:28 AM

Als sich das Gerücht verbreitete, dass das neue Windows 11 in der Entwicklung sei, war jeder Microsoft-Nutzer neugierig, wie das neue Betriebssystem aussehen und was es bringen würde. Nach Spekulationen ist Windows 11 da. Das Betriebssystem kommt mit neuem Design und funktionalen Änderungen. Zusätzlich zu einigen Ergänzungen werden Funktionen eingestellt und entfernt. Eine der Funktionen, die es in Windows 11 nicht gibt, ist Paint3D. Während es immer noch klassisches Paint bietet, das sich gut für Zeichner, Kritzler und Kritzler eignet, verzichtet es auf Paint3D, das zusätzliche Funktionen bietet, die sich ideal für 3D-Ersteller eignen. Wenn Sie nach zusätzlichen Funktionen suchen, empfehlen wir Autodesk Maya als beste 3D-Designsoftware. wie

See all articles