Inhaltsverzeichnis
NeRF + InstructPix2Pix = Instruct-NeRF2NeRF
Implementierungsmethode" >Implementierungsmethode
Es gibt immer noch Einschränkungen, aber die Mängel sind nicht verborgen
Heim Technologie-Peripheriegeräte KI Eine Textzeile, um eine 3D-Gesichtsveränderung zu erreichen! UC Berkeley schlägt „Chat-NeRF' vor, um die Wiedergabe auf Blockbuster-Niveau in nur einem Satz abzuschließen

Eine Textzeile, um eine 3D-Gesichtsveränderung zu erreichen! UC Berkeley schlägt „Chat-NeRF' vor, um die Wiedergabe auf Blockbuster-Niveau in nur einem Satz abzuschließen

Apr 12, 2023 pm 02:37 PM
3d 换脸 uc

Dank der Entwicklung der neuronalen 3D-Rekonstruktionstechnologie war die Erfassung von Feature-Darstellungen realer 3D-Szenen noch nie so einfach.

Allerdings gab es noch nie eine darüber hinausgehende einfache und effektive Lösung für die 3D-Szenenbearbeitung.

Kürzlich haben Forscher der UC Berkeley eine Methode zum Bearbeiten von NeRF-Szenen mithilfe von Textanweisungen vorgeschlagen – Instruct-NeRF2NeRF basierend auf der vorherigen Arbeit InstructPix2Pix.

Eine Textzeile, um eine 3D-Gesichtsveränderung zu erreichen! UC Berkeley schlägt „Chat-NeRF vor, um die Wiedergabe auf Blockbuster-Niveau in nur einem Satz abzuschließen

Papieradresse: https://arxiv.org/abs/2303.12789

Mit Instruct-NeRF2NeRF können wir große Szenen aus der realen Welt mit nur einem Satz bearbeiten es ist realer und zielgerichteter als frühere Arbeiten.

Wenn Sie beispielsweise möchten, dass er einen Bart hat, erscheint ein Bartbüschel auf seinem Gesicht!

Eine Textzeile, um eine 3D-Gesichtsveränderung zu erreichen! UC Berkeley schlägt „Chat-NeRF vor, um die Wiedergabe auf Blockbuster-Niveau in nur einem Satz abzuschließen

Oder ändern Sie einfach Ihren Kopf und werden Sie in Sekundenschnelle Einstein.

Eine Textzeile, um eine 3D-Gesichtsveränderung zu erreichen! UC Berkeley schlägt „Chat-NeRF vor, um die Wiedergabe auf Blockbuster-Niveau in nur einem Satz abzuschließen

Da das Modell außerdem den Datensatz kontinuierlich mit neu bearbeiteten Bildern aktualisieren kann, wird sich der Rekonstruktionseffekt der Szene allmählich verbessern.

NeRF + InstructPix2Pix = Instruct-NeRF2NeRF

Konkret erhalten Menschen ein Eingabebild und schriftliche Anweisungen, die dem Modell sagen, was zu tun ist, und das Modell folgt dann diesen Anweisungen, um das Bild zu bearbeiten.

Die Implementierungsschritte sind wie folgt:

  1. Rendern Sie ein Bild von der Szene in der Trainingsperspektive.
  2. Verwenden Sie das InstructPix2Pix-Modell, um dieses Bild basierend auf globalen Textanweisungen zu bearbeiten.
  3. Ersetzen Sie die Originalbilder im Trainingsdatensatz durch die bearbeiteten Bilder.
  4. Das NeRF-Modell trainiert wie gewohnt weiter.

Eine Textzeile, um eine 3D-Gesichtsveränderung zu erreichen! UC Berkeley schlägt „Chat-NeRF vor, um die Wiedergabe auf Blockbuster-Niveau in nur einem Satz abzuschließen


Implementierungsmethode

Im Vergleich zur herkömmlichen dreidimensionalen Bearbeitung ist NeRF2NeRF eine neue dreidimensionale Szenenbearbeitungsmethode. Ihr größtes Highlight ist die Verwendung der „iterativen Datensatzaktualisierung“. Technologie.

Obwohl die Bearbeitung an einer 3D-Szene erfolgt, verwendet die Arbeit ein 2D- statt eines 3D-Diffusionsmodells, um Form- und Erscheinungsprioritäten zu extrahieren, da die zum Trainieren des generativen 3D-Modells verwendeten Daten sehr begrenzt sind.

Bei diesem 2D-Diffusionsmodell handelt es sich um das kürzlich vom Forschungsteam entwickelte 2D-Bildbearbeitungsmodell, das auf Anweisungstexten basiert und das bearbeitete Bild ausgeben kann.

Dieses 2D-Modell führt jedoch zu ungleichmäßigen Änderungen in verschiedenen Winkeln der Szene. Daher wurde die „iterative Datensatzaktualisierung“ eingeführt, die den „Eingabebilddatensatz“ von NeRF abwechselnd ändert und die grundlegende 3D-Darstellung aktualisiert.

Das bedeutet, dass das textgesteuerte Diffusionsmodell (InstructPix2Pix) gemäß den Anweisungen neue Bildvariationen generiert und diese neuen Bilder als Eingabe für das NeRF-Modelltraining verwendet. Daher wird die rekonstruierte 3D-Szene auf einer neuen textgesteuerten Bearbeitung basieren.

In den ersten Iterationen gelingt es InstructPix2Pix oft nicht, eine konsistente Bearbeitung über verschiedene Betrachtungswinkel hinweg durchzuführen. Während des Prozesses des erneuten Renderns und Aktualisierens von NeRF werden sie jedoch zu einer global konsistenten Szene konvergieren.

Zusammenfassend lässt sich sagen, dass die NeRF2NeRF-Methode die Bearbeitungseffizienz von 3D-Szenen verbessert, indem Bildinhalte iterativ aktualisiert und diese aktualisierten Inhalte in die 3D-Szene integriert werden, während gleichzeitig die Kohärenz und der Realismus der Szene erhalten bleiben.

Eine Textzeile, um eine 3D-Gesichtsveränderung zu erreichen! UC Berkeley schlägt „Chat-NeRF vor, um die Wiedergabe auf Blockbuster-Niveau in nur einem Satz abzuschließen

Man kann sagen, dass diese Arbeit des UC Berkeley-Forschungsteams eine erweiterte Version des vorherigen InstructPix2Pix ist Mit der „iterativen Datensatzaktualisierung“ können Sie weiterhin 3D-Szenen mit Ein-Klick-Bearbeitung genießen!

Es gibt immer noch Einschränkungen, aber die Mängel sind nicht verborgen

Da Instruct-NeRF2NeRF jedoch auf dem vorherigen InstructPix2Pix basiert, erbt es viele der Einschränkungen des letzteren, wie zum Beispiel die Unfähigkeit, groß angelegte räumliche Operationen durchzuführen.

Darüber hinaus kann Instruct-NeRF2NeRF wie DreamFusion das Diffusionsmodell jeweils nur für eine Ansicht verwenden, sodass möglicherweise ähnliche Artefaktprobleme auftreten.

Das folgende Bild zeigt zwei Arten von Fehlerfällen:

(1) Pix2Pix kann nicht verwendet werden Die 2D-Bearbeitung wird in 2D durchgeführt, sodass NeRF2NeRF auch in 3D fehlschlägt. Daher schlägt auch NeRF2NeRF fehl.

Eine Textzeile, um eine 3D-Gesichtsveränderung zu erreichen! UC Berkeley schlägt „Chat-NeRF vor, um die Wiedergabe auf Blockbuster-Niveau in nur einem Satz abzuschließen Ein weiteres Beispiel ist der „Panda“ unten, der nicht nur sehr gut aussieht heftig (Die Prototyp-Statue ist sehr wild), und die Farbe des Fells ist etwas seltsam, und die Augen sind offensichtlich „aus der Form“, wenn sie sich auf dem Bildschirm bewegen.

Da ChatGPT, Diffusion und NeRFs ins Rampenlicht gerückt wurden, kann man sagen, dass dieser Artikel vollständig ist Spielen Sie zu den drei Der Vorteil hat sich von „KI-Zeichnung in einem Satz“ zu „KI-3D-Szenenbearbeitung in einem Satz“ weiterentwickelt. Eine Textzeile, um eine 3D-Gesichtsveränderung zu erreichen! UC Berkeley schlägt „Chat-NeRF vor, um die Wiedergabe auf Blockbuster-Niveau in nur einem Satz abzuschließen

Obwohl die Methode einige Einschränkungen aufweist, hat sie dennoch ihre Mängel und bietet eine einfache und praktikable Lösung für die 3D-Feature-Bearbeitung, die voraussichtlich ein Meilenstein in der Entwicklung werden wird von NeRF.

Bearbeiten von 3D-Szenen in einem Satz

Werfen wir abschließend einen Blick auf die vom Autor veröffentlichten Effekte.

Es ist nicht schwer zu erkennen, dass dieses Ein-Klick-Artefakt für die PS-3D-Szenenbearbeitung in Bezug auf Befehlsverständnis und Bildrealismus eher den Erwartungen entspricht in Zukunft verwendet werden Es ist zum „neuen Favoriten“ unter Wissenschaftlern und Internetnutzern geworden und hat nach ChatGPT ein Chat-NeRFs erstellt. Sie können sogar den Umgebungshintergrund, die Eigenschaften der vier Jahreszeiten und das Wetter des Bildes nach Belieben ändern, und das neue Bild entspricht vollständig der Logik der Realität.

Originalbild:

Eine Textzeile, um eine 3D-Gesichtsveränderung zu erreichen! UC Berkeley schlägt „Chat-NeRF vor, um die Wiedergabe auf Blockbuster-Niveau in nur einem Satz abzuschließen

Herbst: # 🎜🎜#Eine Textzeile, um eine 3D-Gesichtsveränderung zu erreichen! UC Berkeley schlägt „Chat-NeRF vor, um die Wiedergabe auf Blockbuster-Niveau in nur einem Satz abzuschließen

Schneetag: #🎜 🎜#

Eine Textzeile, um eine 3D-Gesichtsveränderung zu erreichen! UC Berkeley schlägt „Chat-NeRF vor, um die Wiedergabe auf Blockbuster-Niveau in nur einem Satz abzuschließen

Wüste:

Eine Textzeile, um eine 3D-Gesichtsveränderung zu erreichen! UC Berkeley schlägt „Chat-NeRF vor, um die Wiedergabe auf Blockbuster-Niveau in nur einem Satz abzuschließen

#🎜🎜 # Sturm:


Eine Textzeile, um eine 3D-Gesichtsveränderung zu erreichen! UC Berkeley schlägt „Chat-NeRF vor, um die Wiedergabe auf Blockbuster-Niveau in nur einem Satz abzuschließen

Referenz: https://www.php.cn/link/ebeb300882677f350ea818c8f333f5b9

Das obige ist der detaillierte Inhalt vonEine Textzeile, um eine 3D-Gesichtsveränderung zu erreichen! UC Berkeley schlägt „Chat-NeRF' vor, um die Wiedergabe auf Blockbuster-Niveau in nur einem Satz abzuschließen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Warum ist Gaussian Splatting beim autonomen Fahren so beliebt, dass NeRF allmählich aufgegeben wird? Warum ist Gaussian Splatting beim autonomen Fahren so beliebt, dass NeRF allmählich aufgegeben wird? Jan 17, 2024 pm 02:57 PM

Oben geschrieben und persönliches Verständnis des Autors. Dreidimensionales Gaussplatting (3DGS) ist eine transformative Technologie, die in den letzten Jahren in den Bereichen explizite Strahlungsfelder und Computergrafik entstanden ist. Diese innovative Methode zeichnet sich durch die Verwendung von Millionen von 3D-Gaußkurven aus, was sich stark von der Neural Radiation Field (NeRF)-Methode unterscheidet, die hauptsächlich ein implizites koordinatenbasiertes Modell verwendet, um räumliche Koordinaten auf Pixelwerte abzubilden. Mit seiner expliziten Szenendarstellung und differenzierbaren Rendering-Algorithmen garantiert 3DGS nicht nur Echtzeit-Rendering-Fähigkeiten, sondern führt auch ein beispielloses Maß an Kontrolle und Szenenbearbeitung ein. Dies positioniert 3DGS als potenziellen Game-Changer für die 3D-Rekonstruktion und -Darstellung der nächsten Generation. Zu diesem Zweck geben wir erstmals einen systematischen Überblick über die neuesten Entwicklungen und Anliegen im Bereich 3DGS.

Was bedeuten die 5G UC- und 5G UW-Symbole auf Ihrem T-Mobile-Smartphone? Was bedeuten die 5G UC- und 5G UW-Symbole auf Ihrem T-Mobile-Smartphone? Feb 24, 2024 pm 06:10 PM

T-Mobile-Benutzer haben festgestellt, dass auf dem Netzwerksymbol auf dem Bildschirm ihres Telefons manchmal 5GUC steht, während bei anderen Mobilfunkanbietern 5GUW angezeigt wird. Dies ist kein Tippfehler, sondern stellt eine andere Art von 5G-Netzwerk dar. Tatsächlich bauen die Betreiber ihre 5G-Netzabdeckung ständig aus. In diesem Thema werfen wir einen Blick auf die Bedeutung der 5GUC- und 5GUW-Symbole, die auf T-Mobile-Smartphones angezeigt werden. Die beiden Logos repräsentieren unterschiedliche 5G-Technologien, jede mit ihren eigenen einzigartigen Eigenschaften und Vorteilen. Durch das Verständnis der Bedeutung dieser Zeichen können Benutzer die Art des 5G-Netzwerks, mit dem sie verbunden sind, besser verstehen und so den Netzwerkdienst auswählen, der ihren Anforderungen am besten entspricht. 5GUCVS5GUW-Symbol in T

Erfahren Sie mehr über 3D Fluent-Emojis in Microsoft Teams Erfahren Sie mehr über 3D Fluent-Emojis in Microsoft Teams Apr 24, 2023 pm 10:28 PM

Sie müssen bedenken, insbesondere wenn Sie Teams-Benutzer sind, dass Microsoft seiner arbeitsorientierten Videokonferenz-App eine neue Reihe von 3DFluent-Emojis hinzugefügt hat. Nachdem Microsoft letztes Jahr 3D-Emojis für Teams und Windows angekündigt hatte, wurden im Rahmen des Prozesses tatsächlich mehr als 1.800 bestehende Emojis für die Plattform aktualisiert. Diese große Idee und die Einführung des 3DFluent-Emoji-Updates für Teams wurden erstmals über einen offiziellen Blogbeitrag beworben. Das neueste Teams-Update bringt FluentEmojis in die App. Laut Microsoft werden uns die aktualisierten 1.800 Emojis täglich zur Verfügung stehen

Kamera oder Lidar wählen? Eine aktuelle Übersicht über die Erzielung einer robusten 3D-Objekterkennung Kamera oder Lidar wählen? Eine aktuelle Übersicht über die Erzielung einer robusten 3D-Objekterkennung Jan 26, 2024 am 11:18 AM

0. Vorab geschrieben&& Persönliches Verständnis, dass autonome Fahrsysteme auf fortschrittlichen Wahrnehmungs-, Entscheidungs- und Steuerungstechnologien beruhen, indem sie verschiedene Sensoren (wie Kameras, Lidar, Radar usw.) verwenden, um die Umgebung wahrzunehmen, und Algorithmen und Modelle verwenden für Echtzeitanalysen und Entscheidungsfindung. Dies ermöglicht es Fahrzeugen, Verkehrszeichen zu erkennen, andere Fahrzeuge zu erkennen und zu verfolgen, das Verhalten von Fußgängern vorherzusagen usw. und sich so sicher an komplexe Verkehrsumgebungen anzupassen. Diese Technologie erregt derzeit große Aufmerksamkeit und gilt als wichtiger Entwicklungsbereich für die Zukunft des Transportwesens . eins. Aber was autonomes Fahren schwierig macht, ist herauszufinden, wie man dem Auto klarmachen kann, was um es herum passiert. Dies erfordert, dass der dreidimensionale Objekterkennungsalgorithmus im autonomen Fahrsystem Objekte in der Umgebung, einschließlich ihrer Standorte, genau wahrnehmen und beschreiben kann.

CLIP-BEVFormer: Überwacht explizit die BEVFormer-Struktur, um die Leistung der Long-Tail-Erkennung zu verbessern CLIP-BEVFormer: Überwacht explizit die BEVFormer-Struktur, um die Leistung der Long-Tail-Erkennung zu verbessern Mar 26, 2024 pm 12:41 PM

Oben geschrieben und das persönliche Verständnis des Autors: Derzeit spielt das Wahrnehmungsmodul im gesamten autonomen Fahrsystem eine entscheidende Rolle Das Steuermodul im autonomen Fahrsystem trifft zeitnahe und korrekte Urteile und Verhaltensentscheidungen. Derzeit sind Autos mit autonomen Fahrfunktionen in der Regel mit einer Vielzahl von Dateninformationssensoren ausgestattet, darunter Rundumsichtkamerasensoren, Lidar-Sensoren und Millimeterwellenradarsensoren, um Informationen in verschiedenen Modalitäten zu sammeln und so genaue Wahrnehmungsaufgaben zu erfüllen. Der auf reinem Sehen basierende BEV-Wahrnehmungsalgorithmus wird von der Industrie aufgrund seiner geringen Hardwarekosten und einfachen Bereitstellung bevorzugt, und seine Ausgabeergebnisse können problemlos auf verschiedene nachgelagerte Aufgaben angewendet werden.

Paint 3D in Windows 11: Download-, Installations- und Nutzungshandbuch Paint 3D in Windows 11: Download-, Installations- und Nutzungshandbuch Apr 26, 2023 am 11:28 AM

Als sich das Gerücht verbreitete, dass das neue Windows 11 in der Entwicklung sei, war jeder Microsoft-Nutzer neugierig, wie das neue Betriebssystem aussehen und was es bringen würde. Nach Spekulationen ist Windows 11 da. Das Betriebssystem kommt mit neuem Design und funktionalen Änderungen. Zusätzlich zu einigen Ergänzungen werden Funktionen eingestellt und entfernt. Eine der Funktionen, die es in Windows 11 nicht gibt, ist Paint3D. Während es immer noch klassisches Paint bietet, das sich gut für Zeichner, Kritzler und Kritzler eignet, verzichtet es auf Paint3D, das zusätzliche Funktionen bietet, die sich ideal für 3D-Ersteller eignen. Wenn Sie nach zusätzlichen Funktionen suchen, empfehlen wir Autodesk Maya als beste 3D-Designsoftware. wie

Holen Sie sich mit einer einzigen Karte in 30 Sekunden eine virtuelle 3D-Frau! Text to 3D generiert einen hochpräzisen digitalen Menschen mit klaren Porendetails und lässt sich nahtlos mit Maya, Unity und anderen Produktionstools verbinden Holen Sie sich mit einer einzigen Karte in 30 Sekunden eine virtuelle 3D-Frau! Text to 3D generiert einen hochpräzisen digitalen Menschen mit klaren Porendetails und lässt sich nahtlos mit Maya, Unity und anderen Produktionstools verbinden May 23, 2023 pm 02:34 PM

ChatGPT hat der KI-Branche eine Portion Hühnerblut injiziert, und alles, was einst undenkbar war, ist heute zur gängigen Praxis geworden. Text-to-3D, das immer weiter voranschreitet, gilt nach Diffusion (Bilder) und GPT (Text) als nächster Hotspot im AIGC-Bereich und hat beispiellose Aufmerksamkeit erhalten. Nein, ein Produkt namens ChatAvatar befindet sich in einer unauffälligen öffentlichen Betaphase, hat schnell über 700.000 Aufrufe und Aufmerksamkeit erregt und wurde auf Spacesoftheweek vorgestellt. △ChatAvatar wird auch die Imageto3D-Technologie unterstützen, die 3D-stilisierte Charaktere aus KI-generierten Einzel-/Mehrperspektive-Originalgemälden generiert. Das von der aktuellen Beta-Version generierte 3D-Modell hat große Beachtung gefunden.

Das Neueste von der Universität Oxford! Mickey: 2D-Bildabgleich in 3D SOTA! (CVPR\'24) Das Neueste von der Universität Oxford! Mickey: 2D-Bildabgleich in 3D SOTA! (CVPR\'24) Apr 23, 2024 pm 01:20 PM

Projektlink vorne geschrieben: https://nianticlabs.github.io/mickey/ Anhand zweier Bilder kann die Kameraposition zwischen ihnen geschätzt werden, indem die Korrespondenz zwischen den Bildern hergestellt wird. Normalerweise handelt es sich bei diesen Entsprechungen um 2D-zu-2D-Entsprechungen, und unsere geschätzten Posen sind maßstabsunabhängig. Einige Anwendungen, wie z. B. Instant Augmented Reality jederzeit und überall, erfordern eine Posenschätzung von Skalenmetriken und sind daher auf externe Tiefenschätzer angewiesen, um die Skalierung wiederherzustellen. In diesem Artikel wird MicKey vorgeschlagen, ein Keypoint-Matching-Prozess, mit dem metrische Korrespondenzen im 3D-Kameraraum vorhergesagt werden können. Durch das Erlernen des 3D-Koordinatenabgleichs zwischen Bildern können wir auf metrische Relativwerte schließen

See all articles