In den letzten Jahren hat die 3D-Belegungsvorhersageaufgabe im Bereich des autonomen Fahrens aufgrund ihrer einzigartigen Vorteile große Aufmerksamkeit in Wissenschaft und Industrie erhalten. Diese Aufgabe liefert detaillierte Informationen für die autonome Fahrplanung und Navigation, indem sie die 3D-Struktur der Umgebung rekonstruiert. Die meisten aktuellen Mainstream-Methoden basieren jedoch auf Etiketten, die auf der Grundlage von LiDAR-Punktwolken generiert werden, um das Netzwerktraining zu überwachen. In einer aktuellen OccNeRF-Studie schlugen die Autoren eine selbstüberwachte Multikamera-Belegungsvorhersagemethode namens „Parameterized Occupancy Fields“ vor. Diese Methode löst das Problem der Grenzenlosigkeit in Außenszenen und organisiert die Sampling-Strategie neu. Anschließend wird das besetzte Feld mithilfe der Volumenrendering-Technologie (Volume Rendering) in eine Multikamera-Tiefenkarte umgewandelt und durch photometrische Konsistenz mehrerer Bilder (photometrischer Fehler) überwacht. Darüber hinaus nutzt die Methode auch ein vorab trainiertes semantisches Segmentierungsmodell mit offenem Vokabular, um 2D-semantische Beschriftungen zu generieren und das Berufsfeld mit semantischen Informationen auszustatten. Dieses semantische Segmentierungsmodell mit offenem Lexikon ist in der Lage, verschiedene Objekte in einer Szene zu segmentieren und jedem Objekt semantische Bezeichnungen zuzuweisen. Durch die Kombination dieser semantischen Bezeichnungen mit Belegungsfeldern können Modelle die Umgebung besser verstehen und genauere Vorhersagen treffen. Zusammenfassend erreicht die OccNeRF-Methode eine hochpräzise Belegungsvorhersage in autonomen Fahrszenarien durch die kombinierte Verwendung von parametrisierten Belegungsfeldern, Volumenrendering und fotometrischer Konsistenz mit mehreren Bildern sowie mit einem semantischen Segmentierungsmodell mit offenem Vokabular. Diese Methode stellt dem autonomen Fahrsystem mehr Umgebungsinformationen zur Verfügung und soll die Sicherheit und Zuverlässigkeit des autonomen Fahrens verbessern.
In den letzten Jahren wurden mit der rasanten Entwicklung der Technologie der künstlichen Intelligenz große Fortschritte im Bereich des autonomen Fahrens erzielt. Die 3D-Wahrnehmung ist die Grundlage für autonomes Fahren und liefert notwendige Informationen für spätere Planungen und Entscheidungen. Bei herkömmlichen Methoden kann Lidar genaue 3D-Daten direkt erfassen, aber die hohen Kosten des Sensors und die spärlichen Scanpunkte schränken seine praktische Anwendung ein. Im Gegensatz dazu sind bildbasierte 3D-Erfassungsmethoden kostengünstig und effektiv und finden zunehmend Beachtung. Die Multikamera Die 3D-Objekterkennung ist seit einiger Zeit der Mainstream für 3D-Szenenverständnisaufgaben, kann jedoch die unbegrenzten Kategorien in der realen Welt nicht bewältigen und leidet unter der Long-Tail-Verteilung von Daten .
Die 3D-Belegungsvorhersage kann diese Mängel gut ausgleichen, indem sie die Geometrie der umgebenden Szene durch Multi-View-Eingabe direkt rekonstruiert. Die meisten vorhandenen Methoden konzentrieren sich auf Modelldesign und Leistungsoptimierung und stützen sich auf von LiDAR-Punktwolken generierte Beschriftungen zur Überwachung des Netzwerktrainings, was in bildbasierten Systemen nicht verfügbar ist. Mit anderen Worten: Wir müssen immer noch teure Datenerfassungsfahrzeuge verwenden, um Trainingsdaten zu sammeln und eine große Menge realer Daten ohne LiDAR-Punktwolken-gestützte Annotation zu verschwenden, was die Entwicklung der 3D-Belegungsvorhersage bis zu einem gewissen Grad einschränkt. Daher ist die Erforschung der selbstüberwachten 3D-Belegungsvorhersage eine sehr wertvolle Richtung.Detaillierte Erläuterung des OccNeRF-Algorithmus
von N Bildern zu extrahieren, und erhält dann direkt 3D-Merkmale durch einfache Projektion und bilineare Interpolation (unter parametrisiertem Raum ) und schließlich durch 3D Das CNN-Netzwerk optimiert 3D-Funktionen und gibt Vorhersagen aus. Um das Modell zu trainieren, generiert die OccNeRF-Methode durch Volumenrendering eine Tiefenkarte des aktuellen Frames und führt den vorherigen und nächsten Frame ein, um den photometrischen Verlust zu berechnen. Um weitere Timing-Informationen einzuführen, verwendet OccNeRF ein Belegungsfeld, um Multi-Frame-Tiefenkarten zu rendern und die Verlustfunktion zu berechnen. Gleichzeitig rendert OccNeRF gleichzeitig auch zweidimensionale semantische Karten und wird vom „Open Lexicon Semantic Segmentation Model“ überwacht. Parameterisierte Belegungsfelder
Parameterisierte Belegungsfelder werden vorgeschlagen, um das Problem der „Wahrnehmungsbereichslücke“ zwischen der Kamera und dem belegten Raster zu lösen. Theoretisch können Kameras Objekte in unendlicher Entfernung erfassen, während bisherige Belegungsvorhersagemodelle nur nähere Räume berücksichtigen (z. B. innerhalb von 40 m). Bei überwachten Methoden kann das Modell anhand von Überwachungssignalen lernen, entfernte Objekte zu ignorieren. Wenn bei unüberwachten Methoden nur noch der Nahraum berücksichtigt wird, wirkt sich das Vorhandensein einer großen Anzahl von Objekten außerhalb der Reichweite im Bild negativ aus Einfluss auf den Optimierungsprozess. Auf dieser Grundlage verwendet OccNeRF parametrisierte Belegungsfelder, um eine unbegrenzte Auswahl an Außenszenen zu modellieren.
Der Parametrisierungsraum in OccNeRF ist in interne und externe unterteilt. Der innere Raum ist eine lineare Abbildung der ursprünglichen Koordinaten unter Beibehaltung einer hohen Auflösung, während der äußere Raum einen unendlichen Bereich darstellt. Konkret nimmt OccNeRF die folgenden Änderungen an den Koordinaten des Mittelpunkts im 3D-Raum vor:
wobei die Koordinate ist, ein einstellbarer Parameter ist, der den entsprechenden Grenzwert des Innenraums angibt, ist ebenfalls einstellbar. Der angepasste Parameter stellt den Anteil des belegten Innenraums dar. Beim Generieren parametrisierter Belegungsfelder tastet OccNeRF zunächst den parametrisierten Raum ab, erhält die ursprünglichen Koordinaten durch inverse Transformation, projiziert dann die ursprünglichen Koordinaten auf die Bildebene und erhält schließlich das Belegungsfeld durch Abtastung und dreidimensionale Faltung.
Um das Belegungsnetzwerk zu trainieren, wählt OccNeRF die Verwendung von Volumenrendering, um die Belegung in eine Tiefenkarte umzuwandeln und diese durch eine photometrische Verlustfunktion zu überwachen. Die Sampling-Strategie ist beim Rendern von Tiefenkarten wichtig. Wenn Sie im parametrisierten Raum direkt eine gleichmäßige Abtastung basierend auf Tiefe oder Parallaxe durchführen, sind die Abtastpunkte im Innen- oder Außenraum ungleichmäßig verteilt, was sich auf den Optimierungsprozess auswirkt. Daher schlägt OccNeRF eine direkte, gleichmäßige Abtastung im parametrisierten Raum unter der Voraussetzung vor, dass sich die Kameramitte nahe am Ursprung befindet. Darüber hinaus rendert und überwacht OccNeRF während des Trainings Multi-Frame-Tiefenkarten.
Die folgende Abbildung veranschaulicht visuell die Vorteile der Verwendung parametrischer räumlicher Darstellung. (Die dritte Zeile verwendet den parametrisierten Raum, die zweite Zeile nicht.)
OccNeRF verwendet vorab trainiertes GroundedSAM (Grounding DINO + SAM), um 2D-semantische Labels zu generieren. Um qualitativ hochwertige Etiketten zu generieren, wendet OccNeRF zwei Strategien an: Die eine ist die „prompte Wortoptimierung“, die vage Kategorien in nuScenes durch präzise Beschreibungen ersetzt. In OccNeRF werden drei Strategien verwendet, um Aufforderungswörter zu optimieren: mehrdeutige Wortersetzung (Auto wird durch Limousine ersetzt), Wort-zu-Wort-Mehrwort-Ersetzung (künstlich gemacht wird durch Gebäude, Werbetafel und Brücke ersetzt) und zusätzliche Informationen werden eingeführt (Fahrrad ist). ersetzt durch Fahrrad, Radfahrer). Die zweite Möglichkeit besteht darin, die Kategorie anhand der Konfidenz des Erkennungsrahmens in Grounding DINO anstelle der pixelweisen Konfidenz von SAM zu bestimmen. Der von OccNeRF erzeugte semantische Etiketteneffekt ist wie folgt:
OccNeRF-Versuchsergebnisse
Die Leistung der selbstüberwachten Tiefenschätzung mit mehreren Ansichten von OccNeRF auf nuScenes ist in der folgenden Tabelle dargestellt. Es ist ersichtlich, dass OccNeRF basierend auf der 3D-Modellierung die 2D-Methode deutlich übertrifft und auch SimpleOcc übertrifft, was vor allem auf den unbegrenzten räumlichen Bereich zurückzuführen ist, den OccNeRF für Außenszenen modelliert.
Einige Visualisierungen im Papier sind wie folgt: 3D-BelegungsvorhersageDie 3D-Belegungsvorhersageleistung von OccNeRF auf nuScenes ist in der folgenden Tabelle dargestellt. Da OccNeRF überhaupt keine annotierten Daten verwendet, bleibt seine Leistung immer noch hinter überwachten Methoden zurück. Allerdings haben einige Kategorien, wie zum Beispiel befahrbare Oberflächen und künstliche, eine vergleichbare Leistung wie überwachte Methoden erzielt.
Einige der Visualisierungen im Artikel sind wie folgt:Zusammenfassung
Das obige ist der detaillierte Inhalt vonOccNeRF: Es ist überhaupt keine Lidar-Datenüberwachung erforderlich. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!