


Generieren Sie mit einem Klick Berge und Flüsse in verschiedenen Stilen und lernen Sie, aus 2D-Bildern unbegrenzt 3D-Szenen zu generieren
- Project Homepage: https://scene-dreamer.github.io/
- code: https://github.com/frozenburning/scenedreamer
- paper: https ://arxiv.org/abs/2302.01330
- Online-Demo: https://huggingface.co/spaces/FrozenBurning/SceneDreamer
Um die wachsende Nachfrage nach 3D-Kreativwerkzeugen im Metaversum zu befriedigen Nachfrage, 3D-Szenengenerierung hat in letzter Zeit große Aufmerksamkeit erhalten. Im Mittelpunkt der Erstellung von 3D-Inhalten stehen inverse Grafiken, die darauf abzielen, 3D-Darstellungen aus 2D-Beobachtungen wiederherzustellen. Angesichts der Kosten und des Arbeitsaufwands, die für die Erstellung von 3D-Assets erforderlich sind, wird das ultimative Ziel der 3D-Inhaltserstellung darin bestehen, generative 3D-Modelle aus der riesigen Menge an 2D-Bildern im Internet zu lernen. Neuere Arbeiten zu generativen Modellen der 3D-Wahrnehmung haben sich in gewissem Maße mit diesem Problem befasst, wobei die meisten Arbeiten 2D-Bilddaten nutzen, um objektzentrierte Inhalte (z. B. Gesichter, menschliche Körper oder Objekte) zu generieren. Der Beobachtungsraum dieser Art von Generierungsaufgabe liegt jedoch in einem endlichen Bereich und die generierten Ziele nehmen einen begrenzten Bereich des dreidimensionalen Raums ein. Dies wirft die Frage auf: Können wir aus riesigen 2D-Bildern im Internet generative 3D-Modelle unbegrenzter Szenen lernen? Zum Beispiel eine lebendige Naturlandschaft, die jede große Fläche bedecken und sich ins Unendliche ausdehnen kann (wie unten gezeigt).
In diesem Artikel schlugen Forscher des Nanyang Technological University S-Lab ein neues Framework SceneDreamer vor, das sich auf das Erlernen unbegrenzter dreidimensionaler Szenengenerierungsmodelle aus massiven unbeschrifteten natürlichen Bildern konzentriert. Durch das Abtasten von Szenenrauschen und Stilrauschen kann SceneDreamer verschiedene Stile natürlicher Szenen rendern und dabei eine extrem hohe dreidimensionale Konsistenz beibehalten, sodass sich die Kamera frei in der Szene bewegen kann.
Um ein solches Ziel zu erreichen, stehen wir vor den folgenden drei Herausforderungen:
1) Unbegrenzten Szenen fehlt eine effiziente dreidimensionale Darstellung: Unbegrenzte Szenen nehmen oft einen beliebig großen euklidischen Raum ein, was die hohe Effizienz und Bedeutung unterstreicht ausdrucksstarker zugrunde liegender dreidimensionaler Darstellungen.
2) Mangelnde Inhaltsausrichtung: Bestehende 3D-Generierungsarbeiten verwenden Datensätze mit ausgerichteten Eigenschaften (wie Gesichter, menschliche Körper, gemeinsame Objekte usw.). Die Zielobjekte in diesen begrenzten Szenen haben normalerweise eine ähnliche Semantik und eine ähnliche Skalierungsposition und Orientierung. In riesigen, unbeschrifteten 2D-Bildern haben verschiedene Objekte oder Szenen jedoch häufig eine sehr unterschiedliche Semantik und unterschiedliche Maßstäbe, Positionen und Ausrichtungen. Diese mangelnde Ausrichtung kann zu Instabilität beim generativen Modelltraining führen.
3) Fehlende Kamera-Posen-Prioris: Generative 3D-Modelle basieren auf Priors präziser Kamera-Posen oder Kamera-Posen-Verteilungen, um den inversen Rendering-Prozess von Bildern zu 3D-Darstellungen zu implementieren. Allerdings stammen natürliche Bilder im Internet aus unterschiedlichen Szenen und Bildquellen, sodass wir keine genauen Informationen oder Vorabinformationen über die Kameraposition erhalten können.
Zu diesem Zweck schlagen wir ein prinzipielles kontradiktorisches Lernframework SceneDreamer vor, das lernt, unbegrenzte dreidimensionale Szenen aus massiven unbeschrifteten natürlichen Bildern zu generieren. Das Framework besteht aus drei Hauptmodulen: 1) einer effizienten und ausdrucksstarken 3D-Szenendarstellung aus der Vogelperspektive; 2) einem generativen neuronalen Hash-Gitter, das eine universelle Darstellung der Szene erlernt; und Das Training wird direkt aus zweidimensionalen Bildern durch kontradiktorisches Lernen durchgeführt.
Das obige Bild zeigt die Hauptstruktur von SceneDreamer. Während des Inferenzprozesses können wir als Eingabe zufällig ein Simplex-Rauschen abtasten, das die Szenenstruktur darstellt, und ein Gaußsches Rauschen
, das den Szenenstil darstellt Unser Modell ist in der Lage, großformatige 3D-Szenen zu rendern und gleichzeitig freie Kamerabewegungen zu unterstützen. Zuerst erhalten wir die BEV-Szenendarstellung bestehend aus einer Höhenkarte und einer semantischen Karte aus dem Szenenrauschen
. Anschließend wird die BEV-Darstellung verwendet, um explizit ein lokales 3D-Szenenfenster zu erstellen, um eine Kameraabtastung durchzuführen, während die BEV-Darstellung in Szenenmerkmale codiert wird
. Wir verwenden die Koordinaten von Abtastpunkten
und Szenenmerkmalen
, um den hochdimensionalen Raum abzufragen, der durch ein generatives neuronales Hashing-Gitter codiert wird, To Erhalten Sie die latenten Variablen räumlicher Unterschiede und Szenenunterschiede
. Schließlich integrieren wir die latenten Variablen im Kameralicht durch einen durch stilistisches Rauschen modulierten Volumenrenderer und erhalten schließlich das gerenderte 2D-Bild.
Um die grenzenlose 3D-Szenengenerierung zu erlernen, hoffen wir, dass die Szene effizient und mit hoher Qualität ausgedrückt werden sollte. Wir schlagen vor, eine großräumige dreidimensionale Szene mithilfe einer BEV-Darstellung auszudrücken, die aus semantischen Karten und Höhenkarten besteht. Insbesondere erhalten wir die Höhenkarte und die semantische Karte aus der Vogelperspektive aus dem Szenenrauschen durch eine nichtparametrische Kartenkonstruktionsmethode. Die Höhenkarte zeichnet die Höheninformationen der Szenenoberflächenpunkte auf, während die semantische Karte die semantischen Beschriftungen der entsprechenden Punkte aufzeichnet. Die von uns verwendete BEV-Darstellung, die aus einer semantischen Karte und einer Höhenkarte besteht, kann: 1) eine dreidimensionale Szene mit einer Komplexität von n ^ 2 darstellen, 2) die dem dreidimensionalen Punkt entsprechende Semantik erhalten und dadurch lösen das Problem der inhaltlichen Ausrichtung. 3) Unterstützt die Verwendung von Schiebefenstern zur Synthese unendlicher Szenen und vermeidet so das Generalisierungsproblem, das durch die feste Szenenauflösung während des Trainings verursacht wird.
Um eine dreidimensionale Darstellung zu kodieren, die zwischen Szenen verallgemeinert werden kann, müssen wir die räumliche dreidimensionale Szenendarstellung in den latenten Raum kodieren, um das Training zu erleichtern des kontradiktorischen Lernens. Es ist erwähnenswert, dass bei einer großen, unbegrenzten Szene normalerweise nur die sichtbaren Oberflächenpunkte für das Rendern von Bedeutung sind, was bedeutet, dass ihre parametrische Form kompakt und spärlich sein sollte. Bestehende Methoden wie die Dreiebenen- oder dreidimensionale Faltung modellieren den Raum als Ganzes, aber eine große Menge an Modellkapazität wird für die Modellierung unsichtbarer Oberflächenpunkte verschwendet. Inspiriert durch den Erfolg neuronaler Hash-Gitter bei 3D-Rekonstruktionsaufgaben verallgemeinern wir ihre räumlich kompakten und effizienten Eigenschaften auf generative Aufgaben und schlagen die Verwendung generativer neuronaler Hash-Gitter zur Modellierung räumlicher 3D-Merkmale über Szenen hinweg vor. Insbesondere wird die Hash-Funktion F_theta verwendet, um Szenenmerkmale f_s und räumliche Punktkoordinaten x auf lernbare Parameter der Mehrskalenmischung abzubilden:
#🎜🎜 #
Um die dreidimensionale Konsistenz des Renderings sicherzustellen, verwenden wir ein auf Volumenrendering basierendes Rendering-Netzwerk, um die Abbildung dreidimensionaler Raummerkmale auf zweidimensionale Bilder abzuschließen. Für einen Punkt auf dem Kameralicht fragen wir das generative Hash-Gitter ab, um das entsprechende Merkmal f_x zu erhalten, verwenden durch Stilrauschen moduliertes mehrschichtiges MLP, um die Farbe und Volumendichte des entsprechenden Punkts zu erhalten, und verwenden schließlich Volumenrendering, um a zu konvertieren Punkt Alle Punkte auf dem Kamerastrahl werden in die Farbe des entsprechenden Pixels integriert.
Das gesamte Framework wird direkt durchgängig auf 2D-Bildern durch kontradiktorisches Lernen trainiert. Der Generator ist der oben erwähnte Volumenrenderer, und für den Diskriminator verwenden wir ein semantikbewusstes diskriminierendes Netzwerk, um basierend auf der semantischen Karte, die aus der BEV-Darstellung auf die Kamera projiziert wird, zwischen realen und gerenderten Bildern zu unterscheiden. Weitere Einzelheiten finden Sie in unserem Dokument.
Nach Abschluss des Trainings können wir durch zufälliges Abtasten von Szenenrauschen und Stilrauschen verschiedene 3D-Szenen mit guten Tiefeninformationen und 3D-Konsistenz generieren und das kostenlose Rendern unterstützen Kamerabahnen:
Durch den Schiebefenster-Inferenzmodus können wir sehr viel generieren große, grenzenlose 3D-Szenen, die die räumliche Auflösung des Trainings bei weitem übertreffen. Die folgende Abbildung zeigt eine Szene mit der zehnfachen räumlichen Auflösung des Trainings und führt eine reibungslose Interpolation sowohl für die Szenen- als auch für die Stildimensionen durch. Unser Framework unterstützt einen entkoppelten Modus, d. h. die separate Fixierung von Szenen oder Stilen für die Interpolation, was den semantischen Reichtum von widerspiegelt der latente Raum: 🎜#
Um die dreidimensionale Konsistenz unserer Methode zu überprüfen, verwenden wir auch eine kreisförmige Kameratrajektorie Um jede Szene zu rendern, wurde re COLMAP für die 3D-Rekonstruktion verwendet und es wurden bessere Szenenpunktwolken und passende Kamerapositionen erhalten, was zeigt, dass diese Methode eine Vielzahl von 3D-Szenen erzeugen und gleichzeitig die 3D-Konsistenz gewährleisten kann:
#🎜🎜 #
Das obige ist der detaillierte Inhalt vonGenerieren Sie mit einem Klick Berge und Flüsse in verschiedenen Stilen und lernen Sie, aus 2D-Bildern unbegrenzt 3D-Szenen zu generieren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



Stellen Sie sich ein Modell der künstlichen Intelligenz vor, das nicht nur die Fähigkeit besitzt, die traditionelle Datenverarbeitung zu übertreffen, sondern auch eine effizientere Leistung zu geringeren Kosten erzielt. Dies ist keine Science-Fiction, DeepSeek-V2[1], das weltweit leistungsstärkste Open-Source-MoE-Modell, ist da. DeepSeek-V2 ist ein leistungsstarkes MoE-Sprachmodell (Mix of Experts) mit den Merkmalen eines wirtschaftlichen Trainings und einer effizienten Inferenz. Es besteht aus 236B Parametern, von denen 21B zur Aktivierung jedes Markers verwendet werden. Im Vergleich zu DeepSeek67B bietet DeepSeek-V2 eine stärkere Leistung, spart gleichzeitig 42,5 % der Trainingskosten, reduziert den KV-Cache um 93,3 % und erhöht den maximalen Generierungsdurchsatz auf das 5,76-fache. DeepSeek ist ein Unternehmen, das sich mit allgemeiner künstlicher Intelligenz beschäftigt

Anfang dieses Monats schlugen Forscher des MIT und anderer Institutionen eine vielversprechende Alternative zu MLP vor – KAN. KAN übertrifft MLP in Bezug auf Genauigkeit und Interpretierbarkeit. Und es kann MLP, das mit einer größeren Anzahl von Parametern ausgeführt wird, mit einer sehr kleinen Anzahl von Parametern übertreffen. Beispielsweise gaben die Autoren an, dass sie KAN nutzten, um die Ergebnisse von DeepMind mit einem kleineren Netzwerk und einem höheren Automatisierungsgrad zu reproduzieren. Konkret verfügt DeepMinds MLP über etwa 300.000 Parameter, während KAN nur etwa 200 Parameter hat. KAN hat eine starke mathematische Grundlage wie MLP und basiert auf dem universellen Approximationssatz, während KAN auf dem Kolmogorov-Arnold-Darstellungssatz basiert. Wie in der folgenden Abbildung gezeigt, hat KAN

Boston Dynamics Atlas tritt offiziell in die Ära der Elektroroboter ein! Gestern hat sich der hydraulische Atlas einfach „unter Tränen“ von der Bühne der Geschichte zurückgezogen. Heute gab Boston Dynamics bekannt, dass der elektrische Atlas im Einsatz ist. Es scheint, dass Boston Dynamics im Bereich kommerzieller humanoider Roboter entschlossen ist, mit Tesla zu konkurrieren. Nach der Veröffentlichung des neuen Videos wurde es innerhalb von nur zehn Stunden bereits von mehr als einer Million Menschen angesehen. Die alten Leute gehen und neue Rollen entstehen. Das ist eine historische Notwendigkeit. Es besteht kein Zweifel, dass dieses Jahr das explosive Jahr der humanoiden Roboter ist. Netizens kommentierten: Die Weiterentwicklung der Roboter hat dazu geführt, dass die diesjährige Eröffnungsfeier wie Menschen aussieht, und der Freiheitsgrad ist weitaus größer als der von Menschen. Aber ist das wirklich kein Horrorfilm? Zu Beginn des Videos liegt Atlas ruhig auf dem Boden, scheinbar auf dem Rücken. Was folgt, ist atemberaubend

KI verändert tatsächlich die Mathematik. Vor kurzem hat Tao Zhexuan, der diesem Thema große Aufmerksamkeit gewidmet hat, die neueste Ausgabe des „Bulletin of the American Mathematical Society“ (Bulletin der American Mathematical Society) weitergeleitet. Zum Thema „Werden Maschinen die Mathematik verändern?“ äußerten viele Mathematiker ihre Meinung. Der gesamte Prozess war voller Funken, knallhart und aufregend. Der Autor verfügt über eine starke Besetzung, darunter der Fields-Medaillengewinner Akshay Venkatesh, der chinesische Mathematiker Zheng Lejun, der NYU-Informatiker Ernest Davis und viele andere bekannte Wissenschaftler der Branche. Die Welt der KI hat sich dramatisch verändert. Viele dieser Artikel wurden vor einem Jahr eingereicht.

Die von Google geförderte Leistung von JAX hat in jüngsten Benchmark-Tests die von Pytorch und TensorFlow übertroffen und belegt bei 7 Indikatoren den ersten Platz. Und der Test wurde nicht auf der TPU mit der besten JAX-Leistung durchgeführt. Obwohl unter Entwicklern Pytorch immer noch beliebter ist als Tensorflow. Aber in Zukunft werden möglicherweise mehr große Modelle auf Basis der JAX-Plattform trainiert und ausgeführt. Modelle Kürzlich hat das Keras-Team drei Backends (TensorFlow, JAX, PyTorch) mit der nativen PyTorch-Implementierung und Keras2 mit TensorFlow verglichen. Zunächst wählen sie eine Reihe von Mainstream-Inhalten aus

Das neueste Video von Teslas Roboter Optimus ist veröffentlicht und er kann bereits in der Fabrik arbeiten. Bei normaler Geschwindigkeit sortiert es Batterien (Teslas 4680-Batterien) so: Der Beamte hat auch veröffentlicht, wie es bei 20-facher Geschwindigkeit aussieht – auf einer kleinen „Workstation“, pflücken und pflücken und pflücken: Dieses Mal wird es freigegeben. Eines der Highlights Der Vorteil des Videos besteht darin, dass Optimus diese Arbeit in der Fabrik völlig autonom und ohne menschliches Eingreifen während des gesamten Prozesses erledigt. Und aus Sicht von Optimus kann es auch die krumme Batterie aufnehmen und platzieren, wobei der Schwerpunkt auf der automatischen Fehlerkorrektur liegt: In Bezug auf die Hand von Optimus gab der NVIDIA-Wissenschaftler Jim Fan eine hohe Bewertung ab: Die Hand von Optimus ist der fünffingrige Roboter der Welt am geschicktesten. Seine Hände sind nicht nur taktil

In diesem Artikel wird das Problem der genauen Erkennung von Objekten aus verschiedenen Blickwinkeln (z. B. Perspektive und Vogelperspektive) beim autonomen Fahren untersucht, insbesondere wie die Transformation von Merkmalen aus der Perspektive (PV) in den Raum aus der Vogelperspektive (BEV) effektiv ist implementiert über das Modul Visual Transformation (VT). Bestehende Methoden lassen sich grob in zwei Strategien unterteilen: 2D-zu-3D- und 3D-zu-2D-Konvertierung. 2D-zu-3D-Methoden verbessern dichte 2D-Merkmale durch die Vorhersage von Tiefenwahrscheinlichkeiten, aber die inhärente Unsicherheit von Tiefenvorhersagen, insbesondere in entfernten Regionen, kann zu Ungenauigkeiten führen. Während 3D-zu-2D-Methoden normalerweise 3D-Abfragen verwenden, um 2D-Features abzutasten und die Aufmerksamkeitsgewichte der Korrespondenz zwischen 3D- und 2D-Features über einen Transformer zu lernen, erhöht sich die Rechen- und Bereitstellungszeit.

Die Zielerkennung ist ein relativ ausgereiftes Problem in autonomen Fahrsystemen, wobei die Fußgängererkennung einer der ersten Algorithmen ist, die eingesetzt werden. In den meisten Arbeiten wurde eine sehr umfassende Recherche durchgeführt. Die Entfernungswahrnehmung mithilfe von Fischaugenkameras für die Rundumsicht ist jedoch relativ wenig untersucht. Aufgrund der großen radialen Verzerrung ist es schwierig, die standardmäßige Bounding-Box-Darstellung in Fischaugenkameras zu implementieren. Um die obige Beschreibung zu vereinfachen, untersuchen wir erweiterte Begrenzungsrahmen-, Ellipsen- und allgemeine Polygondesigns in Polar-/Winkeldarstellungen und definieren eine mIOU-Metrik für die Instanzsegmentierung, um diese Darstellungen zu analysieren. Das vorgeschlagene Modell „fisheyeDetNet“ mit polygonaler Form übertrifft andere Modelle und erreicht gleichzeitig 49,5 % mAP auf dem Valeo-Fisheye-Kameradatensatz für autonomes Fahren
