Heim Technologie-Peripheriegeräte KI Großes Multi-View-Gauß-Modell LGM: Erzeugt hochwertige 3D-Objekte in 5 Sekunden, verfügbar zum Testen

Großes Multi-View-Gauß-Modell LGM: Erzeugt hochwertige 3D-Objekte in 5 Sekunden, verfügbar zum Testen

Feb 20, 2024 pm 03:10 PM
ai 数据 元宇宙

Als Reaktion auf die weiterhin wachsende Nachfrage nach 3D-Kreativwerkzeugen im Metaverse zeigten die Menschen in letzter Zeit großes Interesse an der dreidimensionalen Inhaltsgenerierung (3D AIGC). Gleichzeitig hat die Erstellung von 3D-Inhalten erhebliche Fortschritte in Qualität und Geschwindigkeit gemacht.

Obwohl aktuelle generative Feed-Forward-Modelle 3D-Objekte in Sekundenschnelle generieren können, ist ihre Auflösung durch die intensive Berechnung, die während des Trainings erforderlich ist, begrenzt, was zur Generierung von Inhalten von geringer Qualität führt. Da stellt sich die Frage: Kann ein hochauflösendes, qualitativ hochwertiges 3D-Objekt in nur 5 Sekunden generiert werden?

Großes Multi-View-Gauß-Modell LGM: Erzeugt hochwertige 3D-Objekte in 5 Sekunden, verfügbar zum Testen

In diesem Artikel schlugen Forscher der Peking-Universität, des S-Lab der Nanyang Technological University und des Shanghai Artificial Intelligence Laboratory ein „neues LGM-Framework“ vor, nämlich das Large Gaussian Model, das die Transformation von Einzelansichtsbildern realisiert Oder Texteingabe, um in nur 5 Sekunden hochauflösende und hochwertige dreidimensionale Objekte zu generieren.

Derzeit sind sowohl der Code als auch die Modellgewichte Open Source. Die Forscher stellen außerdem eine Online-Demo zur Verfügung, die jeder ausprobieren kann.

Großes Multi-View-Gauß-Modell LGM: Erzeugt hochwertige 3D-Objekte in 5 Sekunden, verfügbar zum Testen

    Papiertitel: LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation
  • Projekthomepage: https://me.kiui.moe/lgm/
  • Code : https://github.com/3DTopia/LGM
  • Papier: https://arxiv.org/abs/2402.05054
  • Online-Demo: https://huggingface.co/spaces/ashawkey/LGM
Um ein solches Ziel zu erreichen, stehen Forscher vor den folgenden zwei Herausforderungen:

  1. Effiziente 3D-Darstellung bei begrenztem Rechenaufwand: Bestehende 3D-Generierungsarbeiten verwenden NeRF basierend auf drei Ebenen als 3D-Darstellung und Rendering Pipeline, die intensive Modellierung von Szenen und die Raytracing-Volumenrendering-Technologie schränken die Trainingsauflösung (128 x 128) erheblich ein, wodurch die Textur des endgültig generierten Inhalts verschwommen und von schlechter Qualität ist.
  2. 3D-Backbone-Generierungsnetzwerk mit hoher Auflösung: Bestehende 3D-Generierungsarbeiten verwenden dichte Transformatoren als Backbone-Netzwerk, um sicherzustellen, dass die Parametermenge dicht genug ist, um universelle Objekte zu modellieren, was jedoch bis zu einem gewissen Grad geopfert wird Die Trainingsauflösung Dies führt zu einer geringen Qualität des endgültigen dreidimensionalen Objekts.
Zu diesem Zweck schlägt dieser Artikel eine neue Methode vor, um hochauflösende dreidimensionale Darstellungen aus Bildern mit vier Ansichten zu synthetisieren und dann

vorhandenen Text für Mehransichtsbilder oder einzelne Bilder für Mehransichtsbildmodelle zu verwenden . Unterstützt hochwertige Text-zu-3D- und Bild-zu-3D-Aufgaben .

Großes Multi-View-Gauß-Modell LGM: Erzeugt hochwertige 3D-Objekte in 5 Sekunden, verfügbar zum Testen

Technisch gesehen ist das

LGM-Kernmodul ein großes Multi-View-Gauß-Modell. Inspiriert durch Gaußsches Sputtern verwendet diese Methode ein effizientes und leichtes asymmetrisches U-Net als Backbone-Netzwerk, um hochauflösende Gaußsche Grundelemente aus Bildern mit vier Ansichten direkt vorherzusagen und schließlich Bilder aus jedem Blickwinkel zu rendern.

Konkret akzeptiert das Backbone-Netzwerk U-Net Bilder aus vier Perspektiven und entsprechenden Plucker-Koordinaten und gibt eine feste Anzahl von Gaußschen Merkmalen aus mehreren Perspektiven aus. Dieser Satz Gaußscher Merkmale wird direkt mit dem endgültigen Gaußschen Element verschmolzen und durch differenzierbares Rendern werden Bilder aus verschiedenen Betrachtungswinkeln erhalten.

In diesem Prozess wird ein ansichtsübergreifender Selbstaufmerksamkeitsmechanismus verwendet, um eine Korrelationsmodellierung zwischen verschiedenen Ansichten auf Feature-Maps mit niedriger Auflösung zu implementieren und gleichzeitig einen geringen Rechenaufwand aufrechtzuerhalten.

Großes Multi-View-Gauß-Modell LGM: Erzeugt hochwertige 3D-Objekte in 5 Sekunden, verfügbar zum Testen

Es ist erwähnenswert, dass es nicht einfach ist, ein solches Modell effizient bei hoher Auflösung zu trainieren. Um ein robustes Training zu erreichen, stehen Forscher immer noch vor den folgenden zwei Problemen.

Zuerst werden die im objaversen Datensatz gerenderten dreidimensionalen konsistenten Mehransichtsbilder in der Trainingsphase verwendet, während in der Inferenzphase vorhandene Modelle direkt verwendet werden, um Mehrperspektivenbilder aus Text oder Bildern zu synthetisieren. Da auf der Grundlage des Modells synthetisierte Multi-View-Bilder immer das Problem der Multi-View-Inkonsistenz haben, wird in diesem Artikel eine auf Gitterverzerrung basierende Datenverbesserungsstrategie vorgeschlagen, um die Lücke in diesem Bereich zu schließen: Anwenden von Randomisierung auf die Bilder aus drei Ansichten im Bildraum Verzerrung, um Multi-View-Inkonsistenz zu simulieren.

Zweitens: Da die in der Inferenzphase erzeugten Mehransichtsbilder die Konsistenz der dreidimensionalen Geometrie der Kameraperspektive nicht unbedingt garantieren, werden in diesem Artikel auch die Kamerapositionen der drei Perspektiven zufällig gestört, um dieses Phänomen zu simulieren , damit das Modell beim Denken eine bessere Leistung erbringen kann. Die Bühne ist stabiler .

Abschließend werden die generierten Gaußschen Grundelemente durch differenzierbares Rendern in entsprechende Bilder gerendert und durch überwachtes Lernen direkt Ende-zu-Ende auf den zweidimensionalen Bildern gelernt.

Nach Abschluss des Trainings kann LGM mithilfe des vorhandenen Bild-zu-Mehrfachansicht- oder Text-zu-Mehrfachansicht-Diffusionsmodells qualitativ hochwertige Text-zu-3D- und Bild-zu-3D-Aufgaben erfüllen.

Großes Multi-View-Gauß-Modell LGM: Erzeugt hochwertige 3D-Objekte in 5 Sekunden, verfügbar zum Testen

Bei gleichem Eingabetext oder Bild kann diese Methode eine Vielzahl hochwertiger 3D-Modelle generieren.

Großes Multi-View-Gauß-Modell LGM: Erzeugt hochwertige 3D-Objekte in 5 Sekunden, verfügbar zum Testen

Um nachgelagerte Grafikaufgaben weiter zu unterstützen, schlugen die Forscher außerdem eine effiziente Methode vor, um die generierte Gaußsche Darstellung in ein glattes und strukturiertes Netz umzuwandeln:

Großes Multi-View-Gauß-Modell LGM: Erzeugt hochwertige 3D-Objekte in 5 Sekunden, verfügbar zum Testen

Weitere Details finden Sie im Originalpapier Inhalt.

Das obige ist der detaillierte Inhalt vonGroßes Multi-View-Gauß-Modell LGM: Erzeugt hochwertige 3D-Objekte in 5 Sekunden, verfügbar zum Testen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
2 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Repo: Wie man Teamkollegen wiederbelebt
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Abenteuer: Wie man riesige Samen bekommt
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Wie hört Uvicorn kontinuierlich auf HTTP -Anfragen ohne Serving_forver () an? Wie hört Uvicorn kontinuierlich auf HTTP -Anfragen ohne Serving_forver () an? Apr 01, 2025 pm 10:51 PM

Wie hört Uvicorn kontinuierlich auf HTTP -Anfragen an? Uvicorn ist ein leichter Webserver, der auf ASGI basiert. Eine seiner Kernfunktionen ist es, auf HTTP -Anfragen zu hören und weiterzumachen ...

Wie kann ich das Problem lösen, dass die Kamera auf HTML -Seiten, die von Flask und Yolov5 entwickelt wurden, keine Erkennungsboxen anzeigen können? Wie kann ich das Problem lösen, dass die Kamera auf HTML -Seiten, die von Flask und Yolov5 entwickelt wurden, keine Erkennungsboxen anzeigen können? Apr 01, 2025 pm 06:33 PM

Wie öffne ich die Kamera erfolgreich und zeigt das Erkennungsfeld auf HTML -Webseiten an, die von Flask und Yolov5 entwickelt wurden? Bei der Entwicklung von HTML -Webseiten mithilfe von Flask Framework und Yolov5 öffnen Sie das Foto ...

Was ist der Grund für die Umleitung von 404 Fehlern nach dem Anmelden bei Selen? Wie löst ich es? Was ist der Grund für die Umleitung von 404 Fehlern nach dem Anmelden bei Selen? Wie löst ich es? Apr 01, 2025 pm 10:54 PM

Lösung zum Umleiten von 404 -Fehlern nach der Simulationsanmeldung Bei der Verwendung von Selen für die Simulationsanmeldung stoßen wir häufig auf schwierige Probleme. � ...

Wie erstelle ich dynamisch ein Objekt über eine Zeichenfolge und rufe seine Methoden in Python auf? Wie erstelle ich dynamisch ein Objekt über eine Zeichenfolge und rufe seine Methoden in Python auf? Apr 01, 2025 pm 11:18 PM

Wie erstellt in Python ein Objekt dynamisch über eine Zeichenfolge und ruft seine Methoden auf? Dies ist eine häufige Programmieranforderung, insbesondere wenn sie konfiguriert oder ausgeführt werden muss ...

Wie löse ich das Problem des fehlenden dynamischen Ladeninhalts beim Erhalten von Webseitendaten? Wie löse ich das Problem des fehlenden dynamischen Ladeninhalts beim Erhalten von Webseitendaten? Apr 01, 2025 pm 11:24 PM

Probleme und Lösungen, die bei der Verwendung der Anforderungsbibliothek zum Crawl -Webseitendaten auftreten. Wenn Sie die Anforderungsbibliothek verwenden, um Webseitendaten zu erhalten, begegnen Sie manchmal auf die ...

Wie kann man Go oder Rost verwenden, um Python -Skripte anzurufen, um eine echte parallele Ausführung zu erreichen? Wie kann man Go oder Rost verwenden, um Python -Skripte anzurufen, um eine echte parallele Ausführung zu erreichen? Apr 01, 2025 pm 11:39 PM

Wie kann man Go oder Rost verwenden, um Python -Skripte anzurufen, um eine echte parallele Ausführung zu erreichen? Vor kurzem habe ich Python verwendet ...

Wie kann die technische Fragen und Antworten in der Chatgpt -Ära auf Herausforderungen reagieren? Wie kann die technische Fragen und Antworten in der Chatgpt -Ära auf Herausforderungen reagieren? Apr 01, 2025 pm 11:51 PM

Die technische Q & A -Community in der Chatgpt -Ära: SegmentFaults Antwortstrategie Stackoverflow ...

See all articles