Die AIxiv-Kolumne ist eine Kolumne, in der akademische und technische Inhalte auf dieser Website veröffentlicht werden. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail für die Einreichung: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Der erste Autor des Artikels ist Chen Jiahao, ein Masterstudent im zweiten Jahr an der Fakultät für Informatik, Sun Yat-sen Seine Forschungsrichtung ist neuronale Darstellung und dreidimensionale Rekonstruktion. Die Arbeit war sein erstes Werk. Der korrespondierende Autor des Papiers ist Professor Li Guanbin von der School of Computer Science and Human-Machine-Object Intelligent Integration Laboratory der Sun Yat-sen University, Doktorvater und Gewinner des National Outstanding Youth Fund. Die Hauptforschungsbereiche des Teams sind visuelle Wahrnehmung, Szenenmodellierung, Verständnis und Generierung. Bis heute hat er mehr als 150 Artikel der CCF-Kategorie A/CAS Area 1 veröffentlicht, die von Google Scholar mehr als 12.000 Mal zitiert wurden. Er hat Auszeichnungen wie den Wu Wenjun Artificial Intelligence Outstanding Youth Award gewonnen. Seit seiner Einführung haben Neural Radiance Fields (NeRF) aufgrund ihrer hervorragenden Leistung bei der Synthese neuer Perspektiven und der dreidimensionalen Rekonstruktion große Aufmerksamkeit erhalten. Obwohl viel daran gearbeitet wird, die Rendering-Qualität oder die Laufgeschwindigkeit von NeRF zu verbessern, wird ein praktisches Problem selten erwähnt: Wenn in der zu modellierenden Szene unerwartete vorübergehende Interferenzen auftreten, erfahren Sie, wie Sie deren Auswirkungen beseitigen können NeRF? In diesem Artikel haben Forscher der Sun Yat-sen University, der Cardiff University, der University of Pennsylvania und Simou Technology ausführliche Untersuchungen zu diesem Thema durchgeführt und ein neuartiges Paradigma zur Lösung dieses Problems vorgeschlagen. Durch die Zusammenfassung der Vor- und Nachteile bestehender Methoden und die Erweiterung der Anwendungsideen bestehender Technologien kann diese Methode nicht nur statische und transiente Elemente in verschiedenen Szenen genau unterscheiden und die Rendering-Qualität von NeRF verbessern, sondern hat dies auch getan in die engere Wahl für den CVPR 2024 Best Paper Candidate genommen.
- Papierlink: https://arxiv.org/abs/2403.17537
- Projektlink: https://www.sysu-hcp.net/projects/cv/132.html
Lassen Sie uns diese Arbeit gemeinsam verstehen.
Einführung in den HintergrundDie Synthese neuer Perspektiven ist eine wichtige Aufgabe in der Bildverarbeitung und Grafik. Das Algorithmusmodell muss gegebene Mehransichtsbilder und Kamerapositionen verwenden, um Bilder zu erzeugen, die der Zielposition entsprechen. . NeRF hat bei dieser Aufgabe wichtige Durchbrüche erzielt, seine Wirksamkeit hängt jedoch mit der Annahme statischer Szenen zusammen.
Konkret verlangt NeRF, dass die zu modellierende Szene während des Aufnahmevorgangs stationär bleibt und der Multiview-Bildinhalt konsistent sein muss. In der Realität ist es für uns schwierig, diese Anforderung zu erfüllen. Beispielsweise können sich bei Außenaufnahmen Fahrzeuge oder Passanten zufällig im Objektiv bewegen, und bei Innenaufnahmen kann es passieren, dass ein Objekt oder ein Schatten das Objektiv unbeabsichtigt blockiert. Wir bezeichnen Elemente, die außerhalb dieser Art von Szene Bewegung oder Inkonsistenz aufweisen, als vorübergehende Ablenker. Wenn wir sie nicht beseitigen können, führen sie zu Artefakten in den Rendering-Ergebnissen von NeRF.
(Das Vorhandensein vorübergehender Interferenzen (gelber Kasten) kann zu einer großen Anzahl von Pseudohadoskopien führen. Die aktuellen Methoden zur Lösung des Problems transienter Störer lassen sich grob in zwei Typen einteilen.
Die erste Methode verwendet vorhandene Segmentierungsmodelle wie die semantische Segmentierung, um explizit Masken zu erhalten, die sich auf Distraktoren beziehen, und maskiert dann die entsprechenden Pixel beim Training von NeRF. Obwohl solche Methoden genaue Segmentierungsergebnisse liefern können, sind sie nicht universell. Dies liegt daran, dass wir das Vorwissen in Bezug auf die Ablenker (z. B. Objektkategorie, Anfangsmaske usw.) im Voraus kennen müssen und das Modell diese Ablenker identifizieren kann. Im Gegensatz zur ersten Methode
verwendet die zweite Methode einen heuristischen Algorithmus, um beim Training von NeRF implizit mit vorübergehenden Distraktoren umzugehen, und erfordert keine Vorkenntnisse. Obwohl solche Methoden allgemeiner sind, können sie aufgrund der Komplexität des Designs und des hohen Maßes an Fehlstellungen keine präzise Trennung von vorübergehenden Distraktoren und statischen Szenenelementen vornehmen. Da beispielsweise die Farbtextur, die einem vorübergehenden Pixel entspricht, bei verschiedenen Betrachtungswinkeln inkonsistent ist, ist der Farbrest zwischen dem vorhergesagten Wert und dem wahren Wert dieses Pixels beim Training von NeRF häufig größer als der Rest eines statischen Pixels. Allerdings weisen hochfrequente statische Details in der Szene aufgrund der Schwierigkeit bei der Anpassung auch übermäßige Reste auf, sodass einige Methoden, die transiente Interferenzen durch Festlegen von Restschwellenwerten entfernen, leicht hochfrequente statische Details verlieren können.
Vergleich zwischen vorhandenen Methoden und der in diesem Artikel vorgeschlagenen heuristischen geführten Segmentierung (HuGS). Wenn eine statische Szene durch vorübergehende Ablenker gestört wird, stützen sich (a) segmentierungsbasierte Methoden auf Vorwissen und leiden unter damit verbundenen Artefakten, da unerwartete vorübergehende Objekte (z. B. Pizza) nicht identifiziert werden können Die Methode ist allgemeiner, aber nicht genau genug (z. B. geht die hochfrequente statische Tischdeckentextur verloren). (c) HuGS kombiniert ihre Vorteile und ist in der Lage, vorübergehende Ablenker und statische Szenenelemente genau zu trennen, wodurch die Ergebnisse von NeRF erheblich verbessert werden.
Übersicht über die MethodenDie auf dem Segmentierungsmodell basierende Methode ist genau, aber nicht universell, und die auf dem heuristischen Algorithmus basierende Methode ist universell, aber ungenau Die Stärken des anderen ausgleichen und ausgleichen. Ist es sowohl korrekt als auch universell?
Daher schlug der Autor des Papiers
ein neuartiges Paradigma namens Heuristics-Guided Segmentation (HuGS) vor, das durch „Pferde für Kurse“ motiviert ist. Durch die geschickte Kombination von manuell entwickelten Heuristiken und hinweisgesteuerten Segmentierungsmodellen kann HuGS ohne zusätzliche Vorkenntnisse genau zwischen vorübergehenden Ablenkern und statischen Elementen in einer Szene unterscheiden.
Konkret verwendet HuGS zunächst einen heuristischen Algorithmus, um statische Übergangselemente in Bildern mit mehreren Ansichten grob zu unterscheiden, gibt grobe Hinweise aus und verwendet dann die groben Hinweise, um das Segmentierungsmodell zu steuern und genauere Segmentierungsmasken zu generieren. Beim Training von NeRF werden diese Masken verwendet, um transiente Pixel abzuschirmen und den Einfluss transienter Distraktoren auf NeRF zu eliminieren. HuGS-Designideen.
Im Hinblick auf die konkrete Implementierung wählte der Autor des Papiers
das Segment Anything Model (SAM) als Segmentierungsmodell von HuGS. SAM ist derzeit das fortschrittlichste aufforderungsgesteuerte Segmentierungsmodell, das verschiedene Arten von Eingabeaufforderungen wie Punkte, Kästchen und Masken akzeptieren und entsprechende Instanzsegmentierungsmasken ausgeben kann. Was den heuristischen Algorithmus betrifft, schlug der Autor nach eingehender Analyse
eine kombinierte Heuristik vor: Die auf Structure-from-Motion (SfM) basierende Heuristik wird verwendet, um die hochfrequenten statischen Details der Szene zu erfassen , während die auf einer Farbrestheuristik basierende Heuristik zum Erfassen niederfrequenter statischer Details verwendet wird. Die von den beiden Heuristiken ausgegebenen groben statischen Masken unterscheiden sich voneinander und ihre Vereinigung wird verwendet, um SAM zu einer genaueren statischen Maske zu führen. Durch die nahtlose Kombination dieser beiden Heuristiken kann HuGS verschiedene Arten statischer Elemente bei unterschiedlichen Texturdetails zuverlässig identifizieren.
HuGS-Flussdiagramm. (a) Bei einem ungeordneten Mehrfachansichtsbild in einer statischen Szene mit vorübergehenden Distraktoren erhält HuGS zunächst zwei heuristische Informationen. (b) Der SfM-basierte heuristische Algorithmus verwendet SfM, um die Unterscheidung zwischen statischen Merkmalspunkten und transienten Merkmalspunkten zu ermitteln, und verwendet dann spärliche statische Merkmalspunkte als Hinweise darauf Guide SAM Erzeugt dichte statische Masken. (c) Auf Farbresten basierende Heuristiken basieren auf NeRF, das teilweise trainiert ist (d. h. mit nur wenigen tausend Iterationen trainiert). Die Farbreste zwischen den vorhergesagten und den realen Bildern können zur Generierung eines weiteren Satzes statischer Masken verwendet werden. (d) Die Kombination zweier verschiedener Masken führt SAM letztendlich dazu, (e) eine genaue statische Maske für jedes Bild zu erzeugen. SfM-basierter heuristischer AlgorithmusSfM ist eine Technologie, die dreidimensionale Strukturen aus zweidimensionalen Bildern rekonstruiert. Nach dem Extrahieren der 2D-Merkmale des Bildes führt SfM einen Abgleich und eine geometrische Überprüfung der Merkmale durch und rekonstruiert eine spärliche 3D-Punktwolke. SfM wird häufig verwendet, um die Pose der Bildkamera in NeRF abzuschätzen, und der Autor des Artikels stellte fest, dass SfM auch zur Unterscheidung statischer und vorübergehender Elemente der Szene verwendet werden kann. Angenommen, die Anzahl der Übereinstimmungen für einen bestimmten zweidimensionalen Merkmalspunkt ist die Anzahl anderer zweidimensionaler Merkmalspunkte, die demselben dreidimensionalen Punktwolkenpunkt entsprechen, dann ist die Anzahl der Übereinstimmungen für zweidimensionale Merkmalspunkte aus dem statischen Bereich ist größer als die Anzahl der Übereinstimmungspunkte aus dem Übergangsbereich. Basierend auf dieser Erkenntnis können wir einen Schwellenwert für die Anzahl der Übereinstimmungen festlegen, um statische Merkmalspunkte herauszufiltern, und dann SAM verwenden, um die statischen Merkmalspunkte in statische Masken umzuwandeln. Um die Richtigkeit dieser Feststellung zu überprüfen, führten die Autoren des Papiers Statistiken zum Kubric-Datensatz durch. Wie in der folgenden Abbildung dargestellt, gibt es erhebliche Unterschiede in der Anzahl der Merkmalspunktübereinstimmungen in verschiedenen Bildbereichen. Eine weitere Visualisierung zeigt, dass durch angemessene Schwellenwerteinstellungen vorübergehende Feature-Punkte entfernt und gleichzeitig statische Feature-Punkte beibehalten werden können.
Das linke Bild ist ein Histogramm der Anzahl übereinstimmender Merkmalspunkte aus verschiedenen Bildbereichen. Die übereinstimmende Anzahl statischer Bereichsmerkmalspunkte ist gleichmäßig im Intervall [0,200] verteilt, während die Anzahl der Merkmalspunkte des vorübergehenden Bereichs gleichmäßig verteilt ist Punkte Die Anzahl der Übereinstimmungen nähert sich 0 und konzentriert sich auf das Intervall [0,10]. Das Bild rechts ist ein Kurvendiagramm der Restmerkmalspunktdichte in verschiedenen Bildbereichen nach der Filterung, wenn sich der Schwellenwert ändert. Die Restmerkmalspunktdichte des gesamten Bildes und des statischen Bereichs nimmt mit zunehmendem Schwellenwert linear ab Die Punktdichte des Übergangsbereichs nimmt linear ab und wird nach einem Schwellenwert von mehr als 0,2 nahezu 0. Visualisierte Verteilung der verbleibenden Merkmalspunkte zweier Bilder aus unterschiedlichen Perspektiven mit steigendem Schwellenwert. Die verbleibenden Merkmalspunkte im Übergangsbereich werden nach und nach entfernt, während die meisten Merkmalspunkte im statischen Bereich weiterhin erhalten bleiben. Farbrestbasierte Heuristik Während die SfM-basierte Heuristik in den meisten Szenen gut funktioniert, kann sie statische glatte Texturen nicht gut erfassen. Dies liegt daran, dass glatten Texturen wichtige Funktionen fehlen und sie schwierig zu erstellen sind wird vom Merkmalsextraktionsalgorithmus von SfM erkannt. Um niederfrequente Texturen identifizieren zu können, führte der Autor des Artikels einen heuristischen Algorithmus ein, der auf Farbresten basiert: Trainieren Sie NeRF zunächst teilweise auf den ursprünglichen Mehrfachansichtsbildern (dh iterieren Sie nur Tausende von Bildern). Mal), erhalten Sie ein Unteranpassungsmodell und ermitteln Sie dann den Farbrest zwischen dem gerenderten Bild und dem Zielbild. Wie in der Einleitung zum Hintergrund erwähnt, sind die Farbreste von statischen Texturbereichen mit niedriger Frequenz kleiner als die Reste anderer Arten von Bereichen. Daher kann ein Schwellenwert für die Farbreste festgelegt werden, um eine grobe Maske für statische Texturen mit niedriger Frequenz zu erhalten . Die durch Farbreste erhaltene Maske kann durch die durch SfM erhaltene Maske ergänzt werden, um ein vollständiges Ergebnis zu erhalten.
Eine Kombination aus zwei heuristischen Algorithmen, wobei (a) das Eingabezielbild und (d) das NeRF-Rendering-Ergebnis von nur fünftausend Iterationen ist. Die aus der SfM-basierten Heuristik resultierende statische Maske (b) erfasst hochfrequente statische Details (z. B. die Kastentextur), während statische glatte Teile (z. B. die weiße Stuhllehne) fehlen. Die aus der auf Farbresten basierenden Heuristik abgeleitete statische Maske (e) und ihre vom geführten SAM abgeleitete Segmentierungsmaske (f) allein erzielen gegensätzliche Effekte. Ihre Vereinigung (c) unterscheidet vorübergehende Distraktoren (d. h. rosa Ballons) und deckt gleichzeitig alle statischen Elemente ab. Experimentelle Ergebnisse Maske Vergleich der Rendering-Ergebnisse vor und nach dem Film. Mithilfe kombinierter Heuristik und SAM kann HuGS genaue statische Masken generieren, während Mip-NeRF 360 eine große Anzahl von Artefakten nach der Anwendung statischer Masken eliminiert und die Renderqualität von RGB- und Tiefenkarten deutlich verbessert wird. Qualitativer/quantitativer Rendering-Ergebnisvergleich
Hier werden die experimentellen Ergebnisse der Papiermethode an drei Datensätzen und zwei Basismodellen sowie der Vergleich mit bestehenden Methoden gezeigt. Bestehende Methoden beseitigen entweder keine durch vorübergehende Distraktoren verursachten Artefakte oder löschen zu viele statische Texturdetails. Im Gegensatz dazu kann unsere Methode statische Details besser bewahren und gleichzeitig Artefakte effektiv beseitigen. Vergleich der qualitativen/quantitativen Segmentierungsergebnisse
Der Autor des Papiers verglich es auch mit vorhandenen Segmentierungsalgorithmen für den Kubric-Datensatz. Experimentelle Ergebnisse zeigen, dass bestehende Segmentierungsmodelle wie die semantische Segmentierung und die Videosegmentierung selbst bei Bereitstellung von Vorkenntnissen immer noch eine schlechte Leistung erbringen, da keines der vorhandenen Segmentierungsmodelle für diese Aufgabe konzipiert ist. Obwohl bestehende heuristische Methoden den Standort transienter Störer grob lokalisieren können, können sie keine präziseren Segmentierungsergebnisse erzielen. Im Gegensatz dazu trennt HuGS transiente Distraktoren und statische Szenenelemente ohne zusätzliche Vorkenntnisse präzise, indem es heuristische Algorithmen und Segmentierungsmodelle kombiniert. Ergebnisse des Ablationsexperiments
Der Autor des Papiers überprüfte auch die Auswirkung jeder Komponente auf HuGS, indem er verschiedene Komponenten entfernte. Die Ergebnisse zeigen, dass das Modell (b), dem die SfM-basierte Heuristik fehlt, die niederfrequente statische Textur in der blauen Box nicht gut rekonstruiert, während die Modelle (c) und (d), denen die auf Farbresten basierende Heuristik fehlt, das Gelb verlieren Farbe Hochfrequente statische Details in der Box. Im Vergleich dazu liefert die vollständige Methode (f) die besten numerischen Metriken und Visualisierungsergebnisse. Volltextzusammenfassung
Der Artikel schlägt ein neuartiges heuristisch geführtes Segmentierungsparadigma vor, das das häufige Problem der transienten Interferenz im NeRF-Real-Life-Training effektiv löst. Durch die strategische Kombination der komplementären Stärken handgefertigter Heuristiken und modernster Segmentierungsmodelle erreicht die Methode eine hochpräzise Segmentierung transienter Distraktoren in verschiedenen Szenen ohne Vorkenntnisse. Durch sorgfältig entwickelte Heuristiken ist unsere Methode in der Lage, hoch- und niederfrequente statische Szenenelemente robust zu erfassen. Eine Vielzahl von Experimenten hat den Fortschritt dieser Methode bewiesen. Das obige ist der detaillierte Inhalt vonCVPR-Bester Papierkandidat |. Neuer Durchbruch in NeRF, der heuristisch gesteuerte Segmentierung verwendet, um vorübergehende Interferenzen ohne zusätzliche Vorkenntnisse zu entfernen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!