Statische Objekterkennung (SOD), einschließlich Ampeln, Leitschilder und Verkehrskegel, die meisten Algorithmen sind datengesteuerte tiefe neuronale Netze und erfordern eine große Menge an Trainingsdaten. Die aktuelle Praxis umfasst typischerweise die manuelle Annotation einer großen Anzahl von Trainingsbeispielen auf LiDAR-gescannten Punktwolkendaten, um Long-Tail-Fälle zu beheben.
Manuelle Annotation ist schwierig, die Variabilität und Komplexität realer Szenen zu erfassen, und berücksichtigt häufig Verdeckungen, unterschiedliche Lichtverhältnisse und unterschiedliche Betrachtungswinkel nicht (gelbe Pfeile in Abbildung 1). Der gesamte Prozess hat lange Verknüpfungen, ist äußerst zeitaufwändig, fehleranfällig und kostspielig (Abbildung 2). Daher sind Unternehmen derzeit auf der Suche nach automatischen Etikettierungslösungen, insbesondere basierend auf reiner Sicht. Schließlich verfügt nicht jedes Auto über Lidar.
VRSO+ ist ein visionsbasiertes Annotationssystem für statische Objektannotationen. Es nutzt hauptsächlich Informationen aus SFM, 2D-Objekterkennung und Instanzsegmentierungsergebnissen. Der Gesamteffekt ist:
Bei statischen Objekten extrahiert VRSO Schlüsselpunkte durch Instanzsegmentierung und Konturen, um die Herausforderung zu lösen Die Integration und Deduplizierung statischer Objekte aus verschiedenen Blickwinkeln sowie die Schwierigkeit einer Unterbeobachtung aufgrund von Okklusionsproblemen verbessert die Anmerkungsgenauigkeit. Aus Abbildung 1 geht hervor, dass VRSO im Vergleich zu den manuellen Annotationsergebnissen des Waymo Open-Datensatzes eine höhere Robustheit und geometrische Genauigkeit zeigt.
(Sie haben das alle gesehen. Wischen Sie doch mit dem Daumen nach oben und klicken Sie auf die Karte oben, um mir zu folgen. Der gesamte Vorgang dauert nur 1,328 Sekunden und Sie erhalten dann alle nützlichen Informationen die Zukunft, falls es nützlich ist~)
Das VRSO-System ist hauptsächlich in zwei Teile unterteilt: Szenenrekonstruktion und Statische Objektanmerkung.
Der Rekonstruktionsteil steht nicht im Mittelpunkt, er basiert auf dem SFM-Algorithmus, um die Bildhaltung und spärliche 3D-Schlüsselpunkte wiederherzustellen.
Statischer Objektannotationsalgorithmus, kombiniert mit Pseudocode, der allgemeine Prozess ist (im Folgenden wird Schritt für Schritt detailliert beschrieben):
, um die 3D-Box-Parameter (Position, Richtung, Größe) des statischen Objekts für den gesamten Videoclip zu initialisieren. Jeder Schlüsselpunkt von SFM verfügt über eine genaue 3D-Position und ein entsprechendes 2D-Bild. Für jede 2D-Instanz werden Merkmalspunkte innerhalb der 2D-Instanzmaske extrahiert. Dann kann ein Satz entsprechender 3D-Schlüsselpunkte als Kandidaten für 3D-Begrenzungsrahmen betrachtet werden.
Ein Straßenschild wird als Rechteck mit einer Ausrichtung im Raum dargestellt, das 6 Freiheitsgrade hat, einschließlich Translation (,,), Ausrichtung (θ) und Größe (Breite und Höhe). Aufgrund ihrer Tiefe verfügt eine Ampel über 7 Freiheitsgrade. Verkehrskegel werden ähnlich wie Ampeln dargestellt.
Erhalten Sie den anfänglichen Scheitelpunktwert des statischen Objekts unter 3D-Bedingungen durch Triangulation.
Durch die Überprüfung der Anzahl der Schlüsselpunkte in den 3D-Begrenzungsrahmen, die durch SFM und Instanzsegmentierung während der Szenenrekonstruktion erhalten wurden, gelten nur Instanzen, deren Anzahl der Schlüsselpunkte den Schwellenwert überschreitet, als stabile und gültige Beobachtungen. In diesen Fällen wird der entsprechende 2D-Begrenzungsrahmen als gültige Beobachtung betrachtet. Durch die 2D-Beobachtung mehrerer Bilder werden die Eckpunkte des 2D-Begrenzungsrahmens trianguliert, um die Koordinaten des Begrenzungsrahmens zu erhalten.
Bei kreisförmigen Schildern, die die Scheitelpunkte „unten links, oben links, oben rechts, oben rechts und unten rechts“ auf der Maske nicht unterscheiden, müssen diese kreisförmigen Schilder identifiziert werden. Unter Verwendung von 2D-Erkennungsergebnissen als Beobachtungen kreisförmiger Objekte werden 2D-Instanzsegmentierungsmasken zur Konturextraktion verwendet. Der Mittelpunkt und der Radius werden durch einen Anpassungsalgorithmus der kleinsten Quadrate berechnet. Zu den Parametern des Kreiszeichens gehören der Mittelpunkt (,,), die Richtung (θ) und der Radius ().
Tracking-Feature-Punkt-Zuordnung basierend auf SFM. Bestimmen Sie, ob diese getrennten Instanzen basierend auf dem euklidischen Abstand der Eckpunkte des 3D-Begrenzungsrahmens und der IoU der 2D-Begrenzungsrahmenprojektion zusammengeführt werden sollen. Sobald die Zusammenführung abgeschlossen ist, können 3D-Feature-Punkte innerhalb einer Instanz gruppiert werden, um weitere 2D-Feature-Punkte zuzuordnen. Es wird eine iterative 2D-3D-Assoziation durchgeführt, bis keine 2D-Feature-Punkte mehr hinzugefügt werden können.
Am Beispiel des rechteckigen Zeichens umfassen die Parameter, die optimiert werden können, Position (,,), Richtung (θ) und Größe (,) mit insgesamt sechs Grad der Freiheit. Die Hauptschritte umfassen:
Es gibt auch einige herausfordernde Long-Tail-Fälle, wie z. B. extrem niedrige Auflösung und unzureichende Beleuchtung.
Das VRSO-Framework ermöglicht eine hochpräzise und konsistente 3D-Annotation statischer Objekte, integriert Erkennungs-, Segmentierungs- und SFM-Algorithmen eng, eliminiert manuelle Eingriffe bei der intelligenten Fahrannotation und liefert vergleichbare LiDAR-basierte Ergebnisse zur manuellen Anmerkung. Qualitative und quantitative Auswertungen wurden mit dem weithin anerkannten Waymo Open Dataset durchgeführt: Im Vergleich zur manuellen Annotation wird die Geschwindigkeit um etwa das 16-fache erhöht, bei gleichzeitig bester Konsistenz und Genauigkeit.
Das obige ist der detaillierte Inhalt vonEffizienz um das 16-fache erhöht! VRSO: 3D-Annotation von rein visuellen statischen Objekten, wodurch der geschlossene Datenkreislauf geöffnet wird!. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!