Inhaltsverzeichnis
Papieridee:
Hauptbeiträge:
Netzwerkdesign:
Experimentelle Ergebnisse:
Zusammenfassung:
Heim Technologie-Peripheriegeräte KI Erlernen von modalübergreifendem Belegungswissen: RadOcc mithilfe der Rendering-unterstützten Destillationstechnologie

Erlernen von modalübergreifendem Belegungswissen: RadOcc mithilfe der Rendering-unterstützten Destillationstechnologie

Jan 25, 2024 am 11:36 AM
3d 预测

Originaltitel: Radocc: Learning Cross-Modality Occupancy Knowledge through Rendering Assisted Distillation

Link zum Papier: https://arxiv.org/pdf/2312.11829.pdf

Autorenzugehörigkeit: FNii, CUHK-Shenzhen SSE, CUHK-Shenzhen Huawei Labor der Arche Noah

Konferenz: AAAI 2024

Erlernen von modalübergreifendem Belegungswissen: RadOcc mithilfe der Rendering-unterstützten Destillationstechnologie

Papieridee:

Die 3D-Belegungsvorhersage ist eine neue Aufgabe, die darauf abzielt, den Belegungsstatus und die Semantik von 3D-Szenen anhand von Bildern mit mehreren Ansichten abzuschätzen. Aufgrund des Mangels an geometrischen Prioritäten stößt die bildbasierte Szenenwahrnehmung jedoch auf erhebliche Herausforderungen bei der Erzielung genauer Vorhersagen. Dieser Artikel befasst sich mit diesem Problem, indem er in dieser Aufgabe die modalübergreifende Wissensdestillation untersucht, d. h. wir verwenden ein leistungsfähigeres multimodales Modell, um das visuelle Modell während des Trainingsprozesses zu steuern. In der Praxis stellt dieses Papier fest, dass die direkte Anwendung der Merkmals- oder Logitausrichtung, die in der Wahrnehmung aus der Vogelperspektive (BEV) vorgeschlagen und weit verbreitet ist, keine zufriedenstellenden Ergebnisse liefert. Um dieses Problem zu lösen, stellt dieser Artikel RadOcc vor, ein Rendering-gestütztes Destillationsparadigma für die 3D-Belegungsvorhersage. Durch den Einsatz von differenzierbarem Volumenrendering generieren wir perspektivische Tiefen- und semantische Karten und schlagen zwei neuartige Konsistenzkriterien zwischen der gerenderten Ausgabe von Lehrer- und Schülermodellen vor. Insbesondere richtet der Tiefenkonsistenzverlust die Abschlussverteilungen der Rendering-Strahlen aus, während der semantische Konsistenzverlust die durch das visuelle Basismodell (VLM) gesteuerte Ähnlichkeit innerhalb eines Segments nachahmt. Experimentelle Ergebnisse zum nuScenes-Datensatz zeigen die Wirksamkeit der in diesem Artikel vorgeschlagenen Methode bei der Verbesserung verschiedener Methoden zur 3D-Belegungsvorhersage. Beispielsweise verbessert die in diesem Artikel vorgeschlagene Methode die Basislinie dieses Artikels um 2,2 % in der mIoU-Metrik und erreicht 2,2 %. im Occ3D-Benchmark.

Hauptbeiträge:

In diesem Artikel wird ein Rendering-unterstütztes Destillationsparadigma namens RadOcc für die 3D-Belegungsvorhersage vorgestellt. Dies ist der erste Artikel, der die modalübergreifende Wissensdestillation in 3D-OP untersucht und wertvolle Einblicke in die Anwendung bestehender BEV-Destillationstechniken bei dieser Aufgabe bietet.

Die Autoren schlagen zwei neuartige Destillationsbeschränkungen vor, nämlich Rendering-Tiefe und semantische Konsistenz (RDC und RSC). Diese Einschränkungen verbessern effektiv den Wissenstransferprozess, indem sie Lichtverteilungs- und Korrelationsmatrizen anhand des Vision-Basismodells ausrichten. Der Schlüssel zu diesem Ansatz besteht darin, Tiefen- und semantische Informationen zu nutzen, um den Rendering-Prozess zu steuern und so die Qualität und Genauigkeit der Rendering-Ergebnisse zu verbessern. Durch die Kombination dieser beiden Einschränkungen erzielten die Forscher erhebliche Verbesserungen und lieferten neue Lösungen für den Wissenstransfer bei Sehaufgaben.

Ausgestattet mit der vorgeschlagenen Methode zeigt RadOcc eine hochmoderne Vorhersageleistung bei dichter und dünner Belegung bei Occ3D- und nuScenes-Benchmarks. Darüber hinaus haben Experimente gezeigt, dass die in diesem Artikel vorgeschlagene Destillationsmethode die Leistung mehrerer Basismodelle effektiv verbessern kann.

Netzwerkdesign:

Dieser Artikel ist der erste, der die modalübergreifende Wissensdestillation für die 3D-Belegungsvorhersageaufgabe untersucht. Basierend auf der Methode des Wissenstransfers unter Verwendung von BEV oder Logits-Konsistenz im BEV-Sensorbereich erweitert dieser Artikel diese Destillationstechniken auf die 3D-Belegungsvorhersageaufgabe mit dem Ziel, Voxelmerkmale und Voxel-Logits auszurichten, wie in Abbildung 1(a) dargestellt. Vorläufige Experimente zeigen jedoch, dass diese Ausrichtungstechniken bei 3D-OP-Aufgaben vor erheblichen Herausforderungen stehen, insbesondere bei der ersteren Methode, die eine negative Übertragung einführt. Diese Herausforderung könnte auf den grundlegenden Unterschied zwischen der 3D-Objekterkennung und der Belegungsvorhersage zurückzuführen sein, die als feinkörnigere Wahrnehmungsaufgabe die Erfassung geometrischer Details sowie von Hintergrundobjekten erfordert.

Um die oben genannten Herausforderungen anzugehen, schlägt dieses Papier RadOcc vor, eine neuartige Methode zur modalübergreifenden Wissensdestillation unter Verwendung differenzierbarer Volumenwiedergabe. Die Kernidee von RadOcc besteht darin, die vom Lehrermodell und dem Schülermodell generierten Rendering-Ergebnisse auszurichten, wie in Abbildung 1 (b) dargestellt. Konkret verwendet dieser Artikel die intrinsischen und extrinsischen Parameter der Kamera, um ein Volumenrendering von Voxelmerkmalen durchzuführen (Mildenhall et al. 2021), was es diesem Artikel ermöglicht, entsprechende Tiefenkarten und semantische Karten aus verschiedenen Blickwinkeln zu erhalten. Um eine bessere Ausrichtung zwischen gerenderten Ausgaben zu erreichen, werden in diesem Artikel neuartige Verluste bei der Rendering Depth Consistency (RDC) und der Rendering Semantic Consistency (RSC) vorgestellt. Einerseits erzwingt der RDC-Verlust die Konsistenz der Strahlverteilung, wodurch das Studentenmodell die zugrunde liegende Struktur der Daten erfassen kann. Andererseits nutzt der RSC-Verlust das visuelle Basismodell (Kirillov et al. 2023) und nutzt vorextrahierte Segmente für die Affinitätsdestillation. Dieser Standard ermöglicht es Modellen, semantische Darstellungen verschiedener Bildbereiche zu erlernen und zu vergleichen, wodurch ihre Fähigkeit zur Erfassung feinkörniger Details verbessert wird. Durch die Kombination der oben genannten Einschränkungen nutzt die in diesem Artikel vorgeschlagene Methode effektiv die modalübergreifende Wissensdestillation, wodurch die Leistung verbessert und das Studentenmodell besser optimiert wird. Dieses Papier demonstriert die Wirksamkeit unseres Ansatzes zur Vorhersage dichter und spärlicher Belegung und erzielt bei beiden Aufgaben modernste Ergebnisse.

Erlernen von modalübergreifendem Belegungswissen: RadOcc mithilfe der Rendering-unterstützten Destillationstechnologie

Abbildung 1: Render-unterstützte Destillation. (a) Bestehende Methoden richten Features oder Logits aus. (b) Die in diesem Artikel vorgeschlagene RadOcc-Methode schränkt gleichzeitig die gerenderte Tiefenkarte und Semantik ein. Erlernen von modalübergreifendem Belegungswissen: RadOcc mithilfe der Rendering-unterstützten DestillationstechnologieAbbildung 2: Gesamtrahmen von RadOcc. Es verwendet eine Lehrer-Schüler-Architektur, bei der das Lehrernetzwerk ein multimodales Modell ist und das Schülernetzwerk nur Kameraeingaben akzeptiert. Die Vorhersagen beider Netzwerke werden verwendet, um Rendering-Tiefe und Semantik durch differenzierbares Volumen-Rendering zu generieren. Neu vorgeschlagene Rendering-Tiefe und semantische Konsistenzverluste werden zwischen den Rendering-Ergebnissen übernommen.

Erlernen von modalübergreifendem Belegungswissen: RadOcc mithilfe der Rendering-unterstützten Destillationstechnologie

Abbildung 3: Rendering-Tiefenanalyse. Obwohl der Lehrer (T) und der Schüler (S) ähnliche Rendertiefen haben, insbesondere für Vordergrundobjekte, weisen ihre Lichtabschlussverteilungen große Unterschiede auf.

Erlernen von modalübergreifendem Belegungswissen: RadOcc mithilfe der Rendering-unterstützten Destillationstechnologie

Abbildung 4: Generierung der Affinitätsmatrix. In diesem Artikel wird zunächst das Vision Foundation Model (VFM), nämlich SAM, verwendet, um Segmente in das Originalbild zu extrahieren. Anschließend führt dieser Artikel eine Segmentaggregation der in jedem Segment gerenderten semantischen Merkmale durch, um die Affinitätsmatrix zu erhalten.

Experimentelle Ergebnisse:

Erlernen von modalübergreifendem Belegungswissen: RadOcc mithilfe der Rendering-unterstützten Destillationstechnologie

Erlernen von modalübergreifendem Belegungswissen: RadOcc mithilfe der Rendering-unterstützten DestillationstechnologieErlernen von modalübergreifendem Belegungswissen: RadOcc mithilfe der Rendering-unterstützten Destillationstechnologie

Erlernen von modalübergreifendem Belegungswissen: RadOcc mithilfe der Rendering-unterstützten Destillationstechnologie

Erlernen von modalübergreifendem Belegungswissen: RadOcc mithilfe der Rendering-unterstützten Destillationstechnologie

Erlernen von modalübergreifendem Belegungswissen: RadOcc mithilfe der Rendering-unterstützten Destillationstechnologie

Zusammenfassung:

Dieser Artikel schlägt vor. RadO cc, eine 3D-neuartige, modalübergreifende Wissensdestillation für das Paradigma der Belegungsvorhersage. Es nutzt ein multimodales Lehrermodell, um dem visuellen Schülermodell durch differenzierbare Volumendarstellung geometrische und semantische Führung zu geben. Darüber hinaus werden in diesem Artikel zwei neue Konsistenzkriterien vorgeschlagen: Tiefenkonsistenzverlust und semantischer Konsistenzverlust, um die Strahlenverteilung und Affinitätsmatrix zwischen Lehrer- und Schülermodellen auszurichten. Umfangreiche Experimente mit Occ3D- und nuScenes-Datensätzen zeigen, dass RadOcc die Leistung verschiedener 3D-Belegungsvorhersagemethoden erheblich verbessern kann. Unsere Methode erzielt hochmoderne Ergebnisse beim Occ3D-Challenge-Benchmark und übertrifft bestehende veröffentlichte Methoden deutlich. Wir glauben, dass unsere Arbeit neue Möglichkeiten für modalübergreifendes Lernen im Szenenverständnis eröffnet.

Das obige ist der detaillierte Inhalt vonErlernen von modalübergreifendem Belegungswissen: RadOcc mithilfe der Rendering-unterstützten Destillationstechnologie. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Warum ist Gaussian Splatting beim autonomen Fahren so beliebt, dass NeRF allmählich aufgegeben wird? Warum ist Gaussian Splatting beim autonomen Fahren so beliebt, dass NeRF allmählich aufgegeben wird? Jan 17, 2024 pm 02:57 PM

Oben geschrieben und persönliches Verständnis des Autors. Dreidimensionales Gaussplatting (3DGS) ist eine transformative Technologie, die in den letzten Jahren in den Bereichen explizite Strahlungsfelder und Computergrafik entstanden ist. Diese innovative Methode zeichnet sich durch die Verwendung von Millionen von 3D-Gaußkurven aus, was sich stark von der Neural Radiation Field (NeRF)-Methode unterscheidet, die hauptsächlich ein implizites koordinatenbasiertes Modell verwendet, um räumliche Koordinaten auf Pixelwerte abzubilden. Mit seiner expliziten Szenendarstellung und differenzierbaren Rendering-Algorithmen garantiert 3DGS nicht nur Echtzeit-Rendering-Fähigkeiten, sondern führt auch ein beispielloses Maß an Kontrolle und Szenenbearbeitung ein. Dies positioniert 3DGS als potenziellen Game-Changer für die 3D-Rekonstruktion und -Darstellung der nächsten Generation. Zu diesem Zweck geben wir erstmals einen systematischen Überblick über die neuesten Entwicklungen und Anliegen im Bereich 3DGS.

Erfahren Sie mehr über 3D Fluent-Emojis in Microsoft Teams Erfahren Sie mehr über 3D Fluent-Emojis in Microsoft Teams Apr 24, 2023 pm 10:28 PM

Sie müssen bedenken, insbesondere wenn Sie Teams-Benutzer sind, dass Microsoft seiner arbeitsorientierten Videokonferenz-App eine neue Reihe von 3DFluent-Emojis hinzugefügt hat. Nachdem Microsoft letztes Jahr 3D-Emojis für Teams und Windows angekündigt hatte, wurden im Rahmen des Prozesses tatsächlich mehr als 1.800 bestehende Emojis für die Plattform aktualisiert. Diese große Idee und die Einführung des 3DFluent-Emoji-Updates für Teams wurden erstmals über einen offiziellen Blogbeitrag beworben. Das neueste Teams-Update bringt FluentEmojis in die App. Laut Microsoft werden uns die aktualisierten 1.800 Emojis täglich zur Verfügung stehen

Kamera oder Lidar wählen? Eine aktuelle Übersicht über die Erzielung einer robusten 3D-Objekterkennung Kamera oder Lidar wählen? Eine aktuelle Übersicht über die Erzielung einer robusten 3D-Objekterkennung Jan 26, 2024 am 11:18 AM

0. Vorab geschrieben&& Persönliches Verständnis, dass autonome Fahrsysteme auf fortschrittlichen Wahrnehmungs-, Entscheidungs- und Steuerungstechnologien beruhen, indem sie verschiedene Sensoren (wie Kameras, Lidar, Radar usw.) verwenden, um die Umgebung wahrzunehmen, und Algorithmen und Modelle verwenden für Echtzeitanalysen und Entscheidungsfindung. Dies ermöglicht es Fahrzeugen, Verkehrszeichen zu erkennen, andere Fahrzeuge zu erkennen und zu verfolgen, das Verhalten von Fußgängern vorherzusagen usw. und sich so sicher an komplexe Verkehrsumgebungen anzupassen. Diese Technologie erregt derzeit große Aufmerksamkeit und gilt als wichtiger Entwicklungsbereich für die Zukunft des Transportwesens . eins. Aber was autonomes Fahren schwierig macht, ist herauszufinden, wie man dem Auto klarmachen kann, was um es herum passiert. Dies erfordert, dass der dreidimensionale Objekterkennungsalgorithmus im autonomen Fahrsystem Objekte in der Umgebung, einschließlich ihrer Standorte, genau wahrnehmen und beschreiben kann.

CLIP-BEVFormer: Überwacht explizit die BEVFormer-Struktur, um die Leistung der Long-Tail-Erkennung zu verbessern CLIP-BEVFormer: Überwacht explizit die BEVFormer-Struktur, um die Leistung der Long-Tail-Erkennung zu verbessern Mar 26, 2024 pm 12:41 PM

Oben geschrieben und das persönliche Verständnis des Autors: Derzeit spielt das Wahrnehmungsmodul im gesamten autonomen Fahrsystem eine entscheidende Rolle Das Steuermodul im autonomen Fahrsystem trifft zeitnahe und korrekte Urteile und Verhaltensentscheidungen. Derzeit sind Autos mit autonomen Fahrfunktionen in der Regel mit einer Vielzahl von Dateninformationssensoren ausgestattet, darunter Rundumsichtkamerasensoren, Lidar-Sensoren und Millimeterwellenradarsensoren, um Informationen in verschiedenen Modalitäten zu sammeln und so genaue Wahrnehmungsaufgaben zu erfüllen. Der auf reinem Sehen basierende BEV-Wahrnehmungsalgorithmus wird von der Industrie aufgrund seiner geringen Hardwarekosten und einfachen Bereitstellung bevorzugt, und seine Ausgabeergebnisse können problemlos auf verschiedene nachgelagerte Aufgaben angewendet werden.

Quantilregression für probabilistische Zeitreihenprognosen Quantilregression für probabilistische Zeitreihenprognosen May 07, 2024 pm 05:04 PM

Ändern Sie nicht die Bedeutung des ursprünglichen Inhalts, optimieren Sie den Inhalt nicht, schreiben Sie den Inhalt neu und fahren Sie nicht fort. „Die Quantilregression erfüllt diesen Bedarf, indem sie Vorhersageintervalle mit quantifizierten Chancen bereitstellt. Dabei handelt es sich um eine statistische Technik zur Modellierung der Beziehung zwischen einer Prädiktorvariablen und einer Antwortvariablen, insbesondere wenn die bedingte Verteilung der Antwortvariablen von Interesse ist. Im Gegensatz zur herkömmlichen Regression Methoden: Die Quantilregression konzentriert sich auf die Schätzung der bedingten Größe der Antwortvariablen und nicht auf den bedingten Mittelwert Quantile der erklärten Variablen Y. Das bestehende Regressionsmodell ist eigentlich eine Methode zur Untersuchung der Beziehung zwischen der erklärten Variablen und der erklärenden Variablen. Sie konzentrieren sich auf die Beziehung zwischen erklärenden Variablen und erklärten Variablen

SIMPL: Ein einfacher und effizienter Multi-Agent-Benchmark zur Bewegungsvorhersage für autonomes Fahren SIMPL: Ein einfacher und effizienter Multi-Agent-Benchmark zur Bewegungsvorhersage für autonomes Fahren Feb 20, 2024 am 11:48 AM

Originaltitel: SIMPL: ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving Paper-Link: https://arxiv.org/pdf/2402.02519.pdf Code-Link: https://github.com/HKUST-Aerial-Robotics/SIMPL Autor: Hong Kong University of Science und Technologie DJI-Papieridee: Dieses Papier schlägt eine einfache und effiziente Bewegungsvorhersagebasislinie (SIMPL) für autonome Fahrzeuge vor. Im Vergleich zum herkömmlichen Agent-Cent

Paint 3D in Windows 11: Download-, Installations- und Nutzungshandbuch Paint 3D in Windows 11: Download-, Installations- und Nutzungshandbuch Apr 26, 2023 am 11:28 AM

Als sich das Gerücht verbreitete, dass das neue Windows 11 in der Entwicklung sei, war jeder Microsoft-Nutzer neugierig, wie das neue Betriebssystem aussehen und was es bringen würde. Nach Spekulationen ist Windows 11 da. Das Betriebssystem kommt mit neuem Design und funktionalen Änderungen. Zusätzlich zu einigen Ergänzungen werden Funktionen eingestellt und entfernt. Eine der Funktionen, die es in Windows 11 nicht gibt, ist Paint3D. Während es immer noch klassisches Paint bietet, das sich gut für Zeichner, Kritzler und Kritzler eignet, verzichtet es auf Paint3D, das zusätzliche Funktionen bietet, die sich ideal für 3D-Ersteller eignen. Wenn Sie nach zusätzlichen Funktionen suchen, empfehlen wir Autodesk Maya als beste 3D-Designsoftware. wie

Wie verwende ich die MySQL-Datenbank für Prognosen und prädiktive Analysen? Wie verwende ich die MySQL-Datenbank für Prognosen und prädiktive Analysen? Jul 12, 2023 pm 08:43 PM

Wie verwende ich die MySQL-Datenbank für Prognosen und prädiktive Analysen? Überblick: Prognosen und prädiktive Analysen spielen eine wichtige Rolle in der Datenanalyse. MySQL, ein weit verbreitetes relationales Datenbankverwaltungssystem, kann auch für Vorhersage- und prädiktive Analyseaufgaben verwendet werden. In diesem Artikel wird die Verwendung von MySQL für Vorhersagen und Vorhersageanalysen vorgestellt und relevante Codebeispiele bereitgestellt. Datenaufbereitung: Zunächst müssen wir relevante Daten aufbereiten. Angenommen, wir möchten Verkaufsprognosen erstellen, benötigen wir eine Tabelle mit Verkaufsdaten. In MySQL können wir verwenden

See all articles