Die Objekterkennung ist ein relativ ausgereiftes Problem in autonomen Fahrsystemen, wobei die Fußgängererkennung einer der ersten Algorithmen ist, die eingesetzt werden. In den meisten Arbeiten wurde eine sehr umfassende Recherche durchgeführt. Die Entfernungswahrnehmung mithilfe von Fischaugenkameras für die Rundumsicht ist jedoch relativ wenig untersucht. Aufgrund der großen radialen Verzerrung ist es schwierig, die standardmäßige Bounding-Box-Darstellung in Fischaugenkameras zu implementieren. Um die obige Beschreibung zu vereinfachen, untersuchen wir erweiterte Begrenzungsrahmen-, Ellipsen- und allgemeine Polygondesigns in Polar-/Winkeldarstellungen und definieren eine mIOU-Metrik für die Instanzsegmentierung, um diese Darstellungen zu analysieren. Das vorgeschlagene Modell „fisheyeDetNet“ mit polygonaler Form übertrifft andere Modelle und erreicht gleichzeitig eine mAP-Metrik von 49,5 % auf dem Valeo-Fisheye-Kameradatensatz für autonomes Fahren. Derzeit ist dies die erste Studie zu Zielerkennungsalgorithmen auf Basis von Fischaugenkameras in autonomen Fahrszenarien.
Artikellink: https://arxiv.org/pdf/2404.13443.pdf
Unsere Netzwerkstruktur basiert auf dem YOLOv3-Netzwerkmodell und verfügt über starke Erkennungsfähigkeiten für Begrenzungsrahmen, gedrehte Begrenzungsrahmen, Ellipsen und Polygone usw. werden auf verschiedene Arten dargestellt. Um die Portierung des Netzwerks auf Automotive-Hardware mit geringem Stromverbrauch zu ermöglichen, verwenden wir ResNet18 als Encoder. Im Vergleich zum Standard-Darknet53-Encoder werden die Parameter um mehr als 60 % reduziert. Die vorgeschlagene Netzwerkarchitektur ist in der folgenden Abbildung dargestellt.
Unser Bounding-Box-Modell ist das gleiche wie YOLOv3, außer dass der Darknet53-Encoder durch einen ResNet18-Encoder ersetzt wird. Ähnlich wie bei YOLOv3 erfolgt die Objekterkennung in mehreren Maßstäben. Sagen Sie für jedes Gitter in jedem Maßstab die Objektbreite (), die Höhe (), die Koordinaten des Objektmittelpunkts (,) und die Objektklasse voraus. Schließlich wird die nicht maximale Unterdrückung verwendet, um redundante Erkennungen zu filtern.
In diesem Modell wird die Ausrichtung des Rahmens zusammen mit regulären Rahmeninformationen (,,,) zurückgeführt. Der Richtungs-Ground-Truth-Bereich (-180 bis +180°) ist zwischen -1 und +1 normalisiert.
Ellipsenregression ist dasselbe wie Oriented-Box-Regression. Der einzige Unterschied besteht in der Ausgabedarstellung. Die Verlustfunktion ist also auch dieselbe wie der gerichtete Boxverlust.
Unsere vorgeschlagene Methode zur polygonbasierten Instanzsegmentierung ist den Methoden PolarMask und PolyYOLO sehr ähnlich. Anstatt spärliche Polygonpunkte und Einzelskalenvorhersagen wie PolyYOLO zu verwenden. Wir verwenden dichte Polygonannotation und Multiskalenvorhersage.
Wir haben den Valeo-Fisheye-Datensatz ausgewertet, der 60.000 Bilder enthält. Die Bilder wurden von 4 Rundumsichtkameras in Europa, Nordamerika und Asien aufgenommen.
Jedes Modell wird anhand der durchschnittlichen Präzisionsmetrik (mAP) mit einem IoU-Schwellenwert von 50 % verglichen. Die Ergebnisse sind in der folgenden Tabelle aufgeführt. Jeder Algorithmus wird anhand von zwei Kriterien bewertet: identische Leistung und Instanzsegmentierungsleistung.
Das obige ist der detaillierte Inhalt vonFisheyeDetNet: der erste Zielerkennungsalgorithmus basierend auf einer Fischaugenkamera. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!