Heim > Technologie-Peripheriegeräte > KI > Ein effizientes und verallgemeinerbares Gaußsches Rekonstruktions-Framework, das mit nur 3 Ansichten schnell argumentieren und die Optimierung in 45 Sekunden abschließen kann.

Ein effizientes und verallgemeinerbares Gaußsches Rekonstruktions-Framework, das mit nur 3 Ansichten schnell argumentieren und die Optimierung in 45 Sekunden abschließen kann.

WBOY
Freigeben: 2024-06-10 14:24:57
Original
946 Leute haben es durchsucht
Ein effizientes und verallgemeinerbares Gaußsches Rekonstruktions-Framework, das mit nur 3 Ansichten schnell argumentieren und die Optimierung in 45 Sekunden abschließen kann.
Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

3D-Rekonstruktion und neue Ansichtssynthesetechnologie werden in den Bereichen Virtual Reality und Augmented Reality häufig eingesetzt. NeRF hat bemerkenswerte Erfolge bei der Ansichtssynthese erzielt, indem Szenen implizit als Strahlenszenen kodiert wurden. Seine Praktikabilität wird jedoch stark durch die Tatsache eingeschränkt, dass NeRF zum Rendern auf die zeitaufwändige Punkt-für-Punkt-Abfrage dichter Sammlungen angewiesen ist. Um dieses Problem zu lösen, sind einige verallgemeinerbare NeRF-Methoden entstanden, die darauf abzielen, Szenen aus mehreren Ansichten im Netzwerk-Feedforward-Verfahren zu rekonstruieren. NeRF-basierte Methoden sind jedoch geschwindigkeitsbeschränkt, da sie zum Rendern die Abfrage einer dichten Sammlung von Punkten auf Strahlen erfordern. Kürzlich verwendet 3D-Gaußsches Splatting (3D-GS) anisotrope 3D-Gaußsche Flächen zur Darstellung von Szenen und erreicht durch einen differenziellen Rasterer ein qualitativ hochwertiges Echtzeit-Rendering.

Allerdings setzt 3D-GS auch auf die Optimierung jeder einzelnen Szene, was Dutzende Minuten pro Szene in Anspruch nimmt. Um dieses Problem zu lösen, wurden später einige verallgemeinerte Gaußsche Rekonstruktionsarbeiten veröffentlicht, bei denen versucht wurde, 3D-GS auf unsichtbare Szenen zu verallgemeinern. Die Trainings- und Rendering-Effizienz dieser Methoden muss jedoch verbessert werden und beschränkt sich hauptsächlich auf die Rekonstruktion von Objekten oder menschlichen Körpern.

Auf dieser Grundlage schlugen Forscher der Huazhong University of Science and Technology, der Nanyang Technological University, der Greater Bay Area University und des Shanghai Artificial Intelligence Laboratory gemeinsam ein effizientes und verallgemeinerbares Gaußsches Rekonstruktionsmodell namens MVSGaussian für die zukünftige Verwendung vor Szenen gesehen. Dieses Modell funktioniert, indem es das Eingabebild in mehrere Ansichten aufteilt und einen Gaußschen Prozess verwendet, um Tiefen- und Texturinformationen zu schätzen. Anschließend verwendet es einen Multi-View-Stereo-Matching-Algorithmus, um die Ansichten zusammenzuführen und hochwertige Rekonstruktionsergebnisse zu generieren. Diese Methode erreicht ein gutes Gleichgewicht zwischen Rekonstruktionsqualität und Recheneffizienz und bietet eine neue Lösung für zukünftige visuelle Syntheseaufgaben. Titel des Papiers: Fast Generalizable Gaußian Splatting Reconstruction from Multi-View Stereo ://arxiv.org/abs/2405.12218

Ein effizientes und verallgemeinerbares Gaußsches Rekonstruktions-Framework, das mit nur 3 Ansichten schnell argumentieren und die Optimierung in 45 Sekunden abschließen kann.

Projekthomepage: https://mvsgaussian.github.io/
  • Code Open Source: https://github.com/ TQTQliu/MVSGaussian
  • Demo-Video: https://youtu.be/4TxMQ9RnHMA
  • Dieses Modell ist in der Lage, eine 3D-Gaußsche Darstellung einer Szene aus spärlichen Mehrfachansichtsbildern zu lernen. Durch die Kombination der Vorteile des geometrischen Denkens im Multi-View-Stereo-Anzeigeformat (MVS) und des Gaußschen Deep-Shot-Echtzeit-Renderings schneidet MVSGaussian gut im allgemeinen Denken ab und kann die beste Ansichtsrenderingqualität bei höchster Geschwindigkeit erzielen. Darüber hinaus bietet MVSGaussian auch erhebliche Vorteile bei der szenenweisen Optimierung und führt ein hochwertiges Echtzeit-Rendering in nur 45 Sekunden durch (etwa 1/10 von 3D-GS).泛 Abbildung 1 Unabhängig davon, ob es in der Argumentation oder Optimierung verallgemeinert wird, zeigt MVSGAUSSIAN offensichtliche Vorteile in Bezug auf Ansichtsqualität, Rendering-Geschwindigkeit und Optimierungszeit.
  • Abbildung 2 Vergleich der Änderungen der Rendering-Ansichtsqualität mit der Optimierungszeit (Anzahl der Iterationen). Da das verallgemeinerbare Modell eine gute Initialisierung bietet, kann MVSGaussian eine qualitativ hochwertige Ansichtssynthese mit kürzerer Optimierungszeit (weniger Iterationen) erreichen.

Grundprinzip

Ein effizientes und verallgemeinerbares Gaußsches Rekonstruktions-Framework, das mit nur 3 Ansichten schnell argumentieren und die Optimierung in 45 Sekunden abschließen kann.

Um ein effizientes und verallgemeinerbares Gaußsches Sputter-Framework zu entwerfen, stehen wir vor den folgenden zentralen Herausforderungen:

1) Im Gegensatz zu NeRF, das eine implizite Darstellung verwendet, drückt 3D-GS die Szene explizit mit Millionen von 3D-Gaußschen aus Kugeln. Bei der Anwendung von vorab trainiertem 3D-GS auf unsichtbare Szenen unterscheiden sich die Parameter der 3D-Gaußschen Kugel, wie Position und Farbe, erheblich. Der Entwurf einer allgemeinen Darstellung zur Anpassung an 3D-GS ist keine triviale Aufgabe.

2) Die verallgemeinerbare NeRF-Methode erzielt beeindruckende Ansichtssyntheseeffekte durch Volumenrendering. Allerdings ist die Verallgemeinerungsfähigkeit des Gaußschen Sputterns noch nicht vollständig erforscht. Während des Sputterprozesses trägt jede Gaußsche Kugel zu mehreren Pixeln in einem bestimmten Bereich des Bildes bei, und die Farbe jedes Pixels wird aus den Beiträgen mehrerer Gaußscher Kugeln akkumuliert. Die Farbkorrespondenz zwischen Gaußschen Kugeln und Pixeln ist eine komplexere Viele-zu-Viele-Beziehung, die eine Herausforderung für die Generalisierungsfähigkeit des Modells darstellt.

3) Die verallgemeinerbare NeRF-Methode zeigt, dass eine weitere Feinabstimmung für bestimmte Szenarien die Qualität der synthetisierten Ansichten erheblich verbessern kann, dies erfordert jedoch viel zeitaufwändige Optimierung. Obwohl 3D-GS schneller als NeRF ist, dauert es dennoch länger. Daher ist die Entwicklung einer Methode zur schnellen szenenweisen Optimierung auf der Grundlage verallgemeinerbarer Modelle eine vielversprechende Forschungsrichtung.

Als Antwort auf die oben genannten Herausforderungen haben wir uns unsere Lösungen gegeben.

1) Da die Positionsverteilung der Gaußschen Kugel, die jeder Szene entspricht, unterschiedlich ist, verwenden wir Multi-View-Stereo (MVS), um die Geometrie der Szene explizit zu modellieren und auf die Tiefe zu schließen. Als Nächstes kodieren wir Merkmale für die 3D-Punkte, die der geschätzten Tiefe entsprechen, um eine pixelausgerichtete Gaußsche Darstellung zu erstellen.

2) Basierend auf den codierten Merkmalen können wir sie über MLP in Gaußsche Parameter dekodieren, um die Ansicht mithilfe der Sputtertechnologie zu rendern. Wir haben jedoch festgestellt, dass dieser Ansatz nur eine begrenzte Verallgemeinerungsfähigkeit aufweist. Unsere Einsicht ist, dass die Sputter-Modalität eine komplexe Viele-zu-Viele-Beziehung hinsichtlich des Farbbeitrags einführt, d. h. zwischen Gaußschen Kugeln und Pixeln, was eine Herausforderung für die Verallgemeinerung darstellt. Daher schlagen wir eine einfache und effektive Methode zur Volumenwiedergabe mit Tiefenerkennung vor, um die Generalisierungsfähigkeit zu verbessern, d. h. die Verwendung einer Methode zur Volumenwiedergabe mit einem einzigen Abtastpunkt. Die endgültige gerenderte Ansicht wird durch Mittelung der durch die Sputtertechnik und die Volumenrendering-Technik gerenderten Ansichten erhalten.

3) Das vorab trainierte verallgemeinerbare Modell kann eine große Anzahl von 3D-Gaußschen aus mehreren Perspektiven generieren, und diese Gaußschen Punktwolken können als Initialisierung für die anschließende szenenweise Optimierung verwendet werden. Aufgrund der inhärenten Einschränkungen der MVS-Methode ist die vom verallgemeinerbaren Modell vorhergesagte Tiefe jedoch möglicherweise nicht ganz genau, was zu Rauschen in der generierten Gaußschen Punktwolke führt. Das direkte Zusammenfügen dieser Gaußschen Punktwolken erzeugt viel Rauschen. Darüber hinaus verlangsamt eine große Anzahl von Punkten die nachfolgende Optimierung und das Rendern. Eine intuitive Lösung besteht darin, die zusammengefügte Punktwolke herunterzurechnen. Allerdings verringert sich dadurch nicht nur das Rauschen, sondern auch die Anzahl der gültigen Punkte. Unsere Einsicht ist, dass eine gute Aggregationsstrategie Rauschpunkte reduzieren und gültige Punkte so weit wie möglich beibehalten sollte, während gleichzeitig sichergestellt werden sollte, dass die Gesamtzahl der Punkte nicht zu groß ist. Zu diesem Zweck führen wir eine Aggregationsstrategie ein, die auf der geometrischen Konsistenz mehrerer Ansichten basiert. Insbesondere folgen wir dem Prinzip, dass die vorhergesagte Tiefe desselben 3D-Punkts unter verschiedenen Betrachtungswinkeln konsistent sein sollte, und filtern Rauschpunkte heraus, indem wir den Reprojektionsfehler der Gaußschen Tiefen aus verschiedenen Betrachtungswinkeln berechnen.

Ein effizientes und verallgemeinerbares Gaußsches Rekonstruktions-Framework, das mit nur 3 Ansichten schnell argumentieren und die Optimierung in 45 Sekunden abschließen kann.

Abbildung 3 Verallgemeinerbares Gaußsches Sputter-Framework. Features werden zunächst mithilfe eines Feature Pyramid Network (FPN) aus der Eingabeansicht extrahiert, in die Zielperspektive verzerrt, ein Kostenvolumen erstellt und dann durch 3D-CNNs reguliert, um Tiefe zu erzeugen. Als nächstes erstellen wir für tiefenentsprechende 3D-Punkte pixelausgerichtete Gaußsche Darstellungen, indem wir Multi-View- und räumliche Informationskodierungsmerkmale aggregieren. Diese Merkmale werden dann in Gaußsche Parameter und Volumen-Rendering-Parameter dekodiert, die zwei Ansichten rendern, und das Endergebnis ist der Durchschnitt der beiden Ansichten.

Ein effizientes und verallgemeinerbares Gaußsches Rekonstruktions-Framework, das mit nur 3 Ansichten schnell argumentieren und die Optimierung in 45 Sekunden abschließen kann.

Abbildung 4 Konsistente Aggregation. Mithilfe eines verallgemeinerbaren Modells zur Generierung von Tiefenkarten und Gaußschen Punktwolken führen wir zunächst eine geometrische Konsistenzprüfung mit mehreren Ansichten für die Tiefenkarte durch, um eine Maske zum Filtern unzuverlässiger Punkte zu erhalten. Anschließend werden die gefilterten Punktwolken als Initialisierung für die szenenweise Optimierung zu einer Punktwolke zusammengefügt.

Ergebnisvergleich

Dieses Papier führt eine Bewertung der weit verbreiteten DTU-, Real Forward-facing-, NeRF Synthetic- und Tanks and Temples-Datensätze durch und berichtet über Metriken wie PSNR, SSIM, LPIPS und FPS. In Bezug auf die Generalisierungsinferenz (Tabellen 1 und 2) zeigt MVSGaussian eine überlegene Leistung und erreicht eine bessere Leistung bei höchster Geschwindigkeit und minimalem Speicheraufwand. In Bezug auf die szenenweise Optimierung (Tabelle 3) ist MVSGaussian in der Lage, den besten Ansichtssyntheseeffekt in der kürzesten Optimierungszeit (etwa 1/10 von 3D-GS) zu erzielen und eine mit 3D vergleichbare Echtzeit-Rendering-Geschwindigkeit beizubehalten -GS. Qualitative Ansichts- und Videovergleiche zeigen auch die Fähigkeit von MVSGaussian, qualitativ hochwertige Ansichten mit mehr Szenendetails und weniger Artefakten zu synthetisieren. Weitere Videoergebnisse finden Sie auf der Projekthomepage.

Ein effizientes und verallgemeinerbares Gaußsches Rekonstruktions-Framework, das mit nur 3 Ansichten schnell argumentieren und die Optimierung in 45 Sekunden abschließen kann.

                                                                                                                                                                                            Tabelle 1 Quantitative Ergebnisse auf Verallgemeinerung des DTU-Testsatzes. Tabelle 2: Ergebnisse der quantitativen Verallgemeinerung der Datensätze „Real Forward-Facing“, „NeRF Synthetic“ und „Tanks and Temples“. Tabelle 3 Quantitative Ergebnisse nach Szene-für-Szenario-Optimierung. Abbildung 5 Vergleich der Ergebnisse des Generalisierungsschlusses.

Ein effizientes und verallgemeinerbares Gaußsches Rekonstruktions-Framework, das mit nur 3 Ansichten schnell argumentieren und die Optimierung in 45 Sekunden abschließen kann.

                                                                   ​ ​ ​ ​ ​ ​ ​ Abbildung 7 Vergleich der Ergebnisse nach szenenweiser Optimierung.

Ein effizientes und verallgemeinerbares Gaußsches Rekonstruktions-Framework, das mit nur 3 Ansichten schnell argumentieren und die Optimierung in 45 Sekunden abschließen kann.

                                                                                                                                                        verglichen werden.

Ein effizientes und verallgemeinerbares Gaußsches Rekonstruktions-Framework, das mit nur 3 Ansichten schnell argumentieren und die Optimierung in 45 Sekunden abschließen kann.

FazitIn diesem Artikel haben wir MVSGaussian vorgeschlagen, eine neuartige generalisierbare Gaußsche Sputtermethode zur Szenenrekonstruktion aus mehreren Ansichten. Insbesondere nutzen wir MVS, um über die Geometrie nachzudenken und eine pixelausgerichtete Gaußsche Darstellung zu erstellen. Darüber hinaus schlagen wir eine hybride Gaußsche Rendering-Methode vor, die effizientes tiefenbewusstes Volumen-Rendering kombiniert, um die Generalisierungsfähigkeiten zu verbessern. Zusätzlich zur direkten Verallgemeinerung von Schlussfolgerungen kann unser Modell schnell auf bestimmte Szenarien abgestimmt werden. Um eine schnelle Optimierung zu erreichen, führen wir eine geometriekonsistente Aggregationsstrategie mit mehreren Ansichten ein, um eine qualitativ hochwertige Initialisierung zu ermöglichen. Im Vergleich zu generalisierbarem NeRF, das typischerweise mehrere zehn Minuten Feinabstimmung und Sekunden zum Rendern jedes Bildes erfordert, ermöglicht MVSGaussian ein Echtzeit-Rendering mit höherer Synthesequalität.

Darüber hinaus erzielt MVSGaussian im Vergleich zu 3D-GS bessere Ansichtssyntheseeffekte und reduziert gleichzeitig die Trainingsrechenkosten. Umfangreiche Experimente bestätigen, dass MVSGaussian in Bezug auf Generalisierungsleistung, Echtzeit-Rendering-Geschwindigkeit und schnelle Szene-für-Szene-Optimierung den neuesten Stand der Technik erreicht. Da MVSGaussian jedoch für die Tiefenschätzung auf Multi-View-Stereo (MVS) angewiesen ist, weist es die Einschränkungen von MVS auf, wie z. B. eine verringerte Tiefengenauigkeit in Bereichen mit schwachen Texturen oder Spiegelreflexionen, was zu einer verschlechterten Ansichtsqualität führt. Ein effizientes und verallgemeinerbares Gaußsches Rekonstruktions-Framework, das mit nur 3 Ansichten schnell argumentieren und die Optimierung in 45 Sekunden abschließen kann.

Das obige ist der detaillierte Inhalt vonEin effizientes und verallgemeinerbares Gaußsches Rekonstruktions-Framework, das mit nur 3 Ansichten schnell argumentieren und die Optimierung in 45 Sekunden abschließen kann.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:jiqizhixin.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage