OccNeRF: Es ist überhaupt keine Lidar-Datenüberwachung erforderlich

WBOY
Freigeben: 2024-02-07 21:57:13
nach vorne
435 Leute haben es durchsucht

Oben geschrieben & persönliche Zusammenfassung des Autors

In den letzten Jahren hat die 3D-Belegungsvorhersageaufgabe im Bereich des autonomen Fahrens aufgrund ihrer einzigartigen Vorteile große Aufmerksamkeit in Wissenschaft und Industrie erhalten. Diese Aufgabe liefert detaillierte Informationen für die autonome Fahrplanung und Navigation, indem sie die 3D-Struktur der Umgebung rekonstruiert. Die meisten aktuellen Mainstream-Methoden basieren jedoch auf Etiketten, die auf der Grundlage von LiDAR-Punktwolken generiert werden, um das Netzwerktraining zu überwachen. In einer aktuellen OccNeRF-Studie schlugen die Autoren eine selbstüberwachte Multikamera-Belegungsvorhersagemethode namens „Parameterized Occupancy Fields“ vor. Diese Methode löst das Problem der Grenzenlosigkeit in Außenszenen und organisiert die Sampling-Strategie neu. Anschließend wird das besetzte Feld mithilfe der Volumenrendering-Technologie (Volume Rendering) in eine Multikamera-Tiefenkarte umgewandelt und durch photometrische Konsistenz mehrerer Bilder (photometrischer Fehler) überwacht. Darüber hinaus nutzt die Methode auch ein vorab trainiertes semantisches Segmentierungsmodell mit offenem Vokabular, um 2D-semantische Beschriftungen zu generieren und das Berufsfeld mit semantischen Informationen auszustatten. Dieses semantische Segmentierungsmodell mit offenem Lexikon ist in der Lage, verschiedene Objekte in einer Szene zu segmentieren und jedem Objekt semantische Bezeichnungen zuzuweisen. Durch die Kombination dieser semantischen Bezeichnungen mit Belegungsfeldern können Modelle die Umgebung besser verstehen und genauere Vorhersagen treffen. Zusammenfassend erreicht die OccNeRF-Methode eine hochpräzise Belegungsvorhersage in autonomen Fahrszenarien durch die kombinierte Verwendung von parametrisierten Belegungsfeldern, Volumenrendering und fotometrischer Konsistenz mit mehreren Bildern sowie mit einem semantischen Segmentierungsmodell mit offenem Vokabular. Diese Methode stellt dem autonomen Fahrsystem mehr Umgebungsinformationen zur Verfügung und soll die Sicherheit und Zuverlässigkeit des autonomen Fahrens verbessern.

OccNeRF: Es ist überhaupt keine Lidar-Datenüberwachung erforderlich

  • Papier-Link: https://arxiv.org/pdf/2312.09243.pdf
  • Code-Link: https://github.com/LinShan-Bin/OccNeRF

OccNeRF-Problemhintergrund

In den letzten Jahren wurden mit der rasanten Entwicklung der Technologie der künstlichen Intelligenz große Fortschritte im Bereich des autonomen Fahrens erzielt. Die 3D-Wahrnehmung ist die Grundlage für autonomes Fahren und liefert notwendige Informationen für spätere Planungen und Entscheidungen. Bei herkömmlichen Methoden kann Lidar genaue 3D-Daten direkt erfassen, aber die hohen Kosten des Sensors und die spärlichen Scanpunkte schränken seine praktische Anwendung ein. Im Gegensatz dazu sind bildbasierte 3D-Erfassungsmethoden kostengünstig und effektiv und finden zunehmend Beachtung. Die Multikamera Die 3D-Objekterkennung ist seit einiger Zeit der Mainstream für 3D-Szenenverständnisaufgaben, kann jedoch die unbegrenzten Kategorien in der realen Welt nicht bewältigen und leidet unter der Long-Tail-Verteilung von Daten .

Die 3D-Belegungsvorhersage kann diese Mängel gut ausgleichen, indem sie die Geometrie der umgebenden Szene durch Multi-View-Eingabe direkt rekonstruiert. Die meisten vorhandenen Methoden konzentrieren sich auf Modelldesign und Leistungsoptimierung und stützen sich auf von LiDAR-Punktwolken generierte Beschriftungen zur Überwachung des Netzwerktrainings, was in bildbasierten Systemen nicht verfügbar ist. Mit anderen Worten: Wir müssen immer noch teure Datenerfassungsfahrzeuge verwenden, um Trainingsdaten zu sammeln und eine große Menge realer Daten ohne LiDAR-Punktwolken-gestützte Annotation zu verschwenden, was die Entwicklung der 3D-Belegungsvorhersage bis zu einem gewissen Grad einschränkt. Daher ist die Erforschung der selbstüberwachten 3D-Belegungsvorhersage eine sehr wertvolle Richtung.

Detaillierte Erläuterung des OccNeRF-Algorithmus

Die folgende Abbildung zeigt den grundlegenden Prozess der OccNeRF-Methode. Das Modell verwendet Bilder mit mehreren Kameras

als Eingabe, verwendet zunächst das 2D-Backbone, um Merkmale

von N Bildern zu extrahieren, und erhält dann direkt 3D-Merkmale durch einfache Projektion und bilineare Interpolation (unter parametrisiertem Raum ) und schließlich durch 3D Das CNN-Netzwerk optimiert 3D-Funktionen und gibt Vorhersagen aus. Um das Modell zu trainieren, generiert die OccNeRF-Methode durch Volumenrendering eine Tiefenkarte des aktuellen Frames und führt den vorherigen und nächsten Frame ein, um den photometrischen Verlust zu berechnen. Um weitere Timing-Informationen einzuführen, verwendet OccNeRF ein Belegungsfeld, um Multi-Frame-Tiefenkarten zu rendern und die Verlustfunktion zu berechnen. Gleichzeitig rendert OccNeRF gleichzeitig auch zweidimensionale semantische Karten und wird vom „Open Lexicon Semantic Segmentation Model“ überwacht. Parameterisierte Belegungsfelder

Parameterisierte Belegungsfelder werden vorgeschlagen, um das Problem der „Wahrnehmungsbereichslücke“ zwischen der Kamera und dem belegten Raster zu lösen. Theoretisch können Kameras Objekte in unendlicher Entfernung erfassen, während bisherige Belegungsvorhersagemodelle nur nähere Räume berücksichtigen (z. B. innerhalb von 40 m). Bei überwachten Methoden kann das Modell anhand von Überwachungssignalen lernen, entfernte Objekte zu ignorieren. Wenn bei unüberwachten Methoden nur noch der Nahraum berücksichtigt wird, wirkt sich das Vorhandensein einer großen Anzahl von Objekten außerhalb der Reichweite im Bild negativ aus Einfluss auf den Optimierungsprozess. Auf dieser Grundlage verwendet OccNeRF parametrisierte Belegungsfelder, um eine unbegrenzte Auswahl an Außenszenen zu modellieren. OccNeRF: Es ist überhaupt keine Lidar-Datenüberwachung erforderlich

Der Parametrisierungsraum in OccNeRF ist in interne und externe unterteilt. Der innere Raum ist eine lineare Abbildung der ursprünglichen Koordinaten unter Beibehaltung einer hohen Auflösung, während der äußere Raum einen unendlichen Bereich darstellt. Konkret nimmt OccNeRF die folgenden Änderungen an den Koordinaten des Mittelpunkts im 3D-Raum vor:

wobei die Koordinate ist, ein einstellbarer Parameter ist, der den entsprechenden Grenzwert des Innenraums angibt, ist ebenfalls einstellbar. Der angepasste Parameter stellt den Anteil des belegten Innenraums dar. Beim Generieren parametrisierter Belegungsfelder tastet OccNeRF zunächst den parametrisierten Raum ab, erhält die ursprünglichen Koordinaten durch inverse Transformation, projiziert dann die ursprünglichen Koordinaten auf die Bildebene und erhält schließlich das Belegungsfeld durch Abtastung und dreidimensionale Faltung.

Multi-Frame-Tiefenschätzung

Um das Belegungsnetzwerk zu trainieren, wählt OccNeRF die Verwendung von Volumenrendering, um die Belegung in eine Tiefenkarte umzuwandeln und diese durch eine photometrische Verlustfunktion zu überwachen. Die Sampling-Strategie ist beim Rendern von Tiefenkarten wichtig. Wenn Sie im parametrisierten Raum direkt eine gleichmäßige Abtastung basierend auf Tiefe oder Parallaxe durchführen, sind die Abtastpunkte im Innen- oder Außenraum ungleichmäßig verteilt, was sich auf den Optimierungsprozess auswirkt. Daher schlägt OccNeRF eine direkte, gleichmäßige Abtastung im parametrisierten Raum unter der Voraussetzung vor, dass sich die Kameramitte nahe am Ursprung befindet. Darüber hinaus rendert und überwacht OccNeRF während des Trainings Multi-Frame-Tiefenkarten.

Die folgende Abbildung veranschaulicht visuell die Vorteile der Verwendung parametrischer räumlicher Darstellung. (Die dritte Zeile verwendet den parametrisierten Raum, die zweite Zeile nicht.)

OccNeRF: Es ist überhaupt keine Lidar-Datenüberwachung erforderlich

Semantische Label-Generierung

OccNeRF verwendet vorab trainiertes GroundedSAM (Grounding DINO + SAM), um 2D-semantische Labels zu generieren. Um qualitativ hochwertige Etiketten zu generieren, wendet OccNeRF zwei Strategien an: Die eine ist die „prompte Wortoptimierung“, die vage Kategorien in nuScenes durch präzise Beschreibungen ersetzt. In OccNeRF werden drei Strategien verwendet, um Aufforderungswörter zu optimieren: mehrdeutige Wortersetzung (Auto wird durch Limousine ersetzt), Wort-zu-Wort-Mehrwort-Ersetzung (künstlich gemacht wird durch Gebäude, Werbetafel und Brücke ersetzt) ​​und zusätzliche Informationen werden eingeführt (Fahrrad ist). ersetzt durch Fahrrad, Radfahrer). Die zweite Möglichkeit besteht darin, die Kategorie anhand der Konfidenz des Erkennungsrahmens in Grounding DINO anstelle der pixelweisen Konfidenz von SAM zu bestimmen. Der von OccNeRF erzeugte semantische Etiketteneffekt ist wie folgt:

OccNeRF-VersuchsergebnisseOccNeRF: Es ist überhaupt keine Lidar-Datenüberwachung erforderlich

OccNeRF führte Experimente mit nuScenes durch und führte hauptsächlich selbstüberwachte Tiefenschätzungs- und 3D-Belegungsvorhersageaufgaben mit mehreren Ansichten durch. Selbstüberwachte Tiefenschätzung mit mehreren Ansichten

Die Leistung der selbstüberwachten Tiefenschätzung mit mehreren Ansichten von OccNeRF auf nuScenes ist in der folgenden Tabelle dargestellt. Es ist ersichtlich, dass OccNeRF basierend auf der 3D-Modellierung die 2D-Methode deutlich übertrifft und auch SimpleOcc übertrifft, was vor allem auf den unbegrenzten räumlichen Bereich zurückzuführen ist, den OccNeRF für Außenszenen modelliert.

Einige Visualisierungen im Papier sind wie folgt:

OccNeRF: Es ist überhaupt keine Lidar-Datenüberwachung erforderlich

3D-Belegungsvorhersage

OccNeRF: Es ist überhaupt keine Lidar-Datenüberwachung erforderlichDie 3D-Belegungsvorhersageleistung von OccNeRF auf nuScenes ist in der folgenden Tabelle dargestellt. Da OccNeRF überhaupt keine annotierten Daten verwendet, bleibt seine Leistung immer noch hinter überwachten Methoden zurück. Allerdings haben einige Kategorien, wie zum Beispiel befahrbare Oberflächen und künstliche, eine vergleichbare Leistung wie überwachte Methoden erzielt.

Einige der Visualisierungen im Artikel sind wie folgt:

OccNeRF: Es ist überhaupt keine Lidar-Datenüberwachung erforderlich

Zusammenfassung OccNeRF: Es ist überhaupt keine Lidar-Datenüberwachung erforderlich

In einer Zeit, in der viele Automobilhersteller versuchen, LiDAR-Sensoren zu entfernen, wie können Tausende unbeschrifteter Bilder sinnvoll genutzt werden? Daten sind ein wichtiges Thementhema. Und OccNeRF hat uns einen wertvollen Versuch beschert.

Originallink: https://mp.weixin.qq.com/s/UiYEeauAGVtT0c5SB2tHEA

OccNeRF: Es ist überhaupt keine Lidar-Datenüberwachung erforderlich

Das obige ist der detaillierte Inhalt vonOccNeRF: Es ist überhaupt keine Lidar-Datenüberwachung erforderlich. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:51cto.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage
Über uns Haftungsausschluss Sitemap
Chinesische PHP-Website:Online-PHP-Schulung für das Gemeinwohl,Helfen Sie PHP-Lernenden, sich schnell weiterzuentwickeln!