Google ist der erste Anbieter von AIGC zur Videogenerierung, Internetnutzer: Sie können Filme anpassen

PHPz
Freigeben: 2023-04-12 20:10:12
nach vorne
1560 Leute haben es durchsucht

Wir wissen, dass Fortschritte bei generativen Modellen und multimodalen visuellen Sprachmodellen den Weg für groß angelegte Text-zu-Bild-Modelle mit beispiellosem generativen Realismus und Vielfalt geebnet haben. Diese Modelle bieten neue kreative Prozesse, beschränken sich jedoch auf die Zusammenstellung neuer Bilder und nicht auf die Bearbeitung vorhandener Bilder. Um diese Lücke zu schließen, ermöglichen intuitive textbasierte Bearbeitungsmethoden die textbasierte Bearbeitung generierter und realer Bilder und bewahren einige der ursprünglichen Eigenschaften dieser Bilder. Ähnlich wie bei Bildern wurden kürzlich viele Text-zu-Video-Modelle vorgeschlagen, es gibt jedoch nur wenige Methoden, die diese Modelle für die Videobearbeitung verwenden. ​

Bei der textgesteuerten Videobearbeitung stellt der Benutzer ein Eingabevideo zusammen mit einer Textaufforderung bereit, die die erwarteten Eigenschaften des generierten Videos beschreibt, wie in Abbildung 1 unten dargestellt. Die Ziele umfassen die folgenden drei Aspekte: 1) Ausrichtung: Das bearbeitete Video sollte der Eingabeaufforderung entsprechen. 2) Wiedergabetreue: Das bearbeitete Video sollte den Inhalt des Originalvideos beibehalten. 3) Qualität: Das bearbeitete Video sollte eine hohe Qualität aufweisen .

Wie Sie sehen, Videobearbeitung ist anspruchsvoller als Bildbearbeitung, es erfordert die Synthese neuer Aktionen, anstatt nur das visuelle Erscheinungsbild zu verändern. Auch die zeitliche Konsistenz muss gewahrt bleiben. Daher reicht die Anwendung von Bearbeitungsmethoden auf Bildebene wie SDEdit und Prompt-to-Prompt auf Videobilder nicht aus, um gute Ergebnisse zu erzielen.

Google ist der erste Anbieter von AIGC zur Videogenerierung, Internetnutzer: Sie können Filme anpassen

In einem kürzlich von Google Research und anderen auf arXiv veröffentlichten Artikel Forscher schlugen eine neue Methode Dreamix vor, die von UniTune inspiriert wurde, um textbedingte Videos zu verbreiten Modell (Videodiffusionsmodell, VDM) wird auf die Videobearbeitung angewendet. ?? io/

Google ist der erste Anbieter von AIGC zur Videogenerierung, Internetnutzer: Sie können Filme anpassen

    Der Kern der Methode in diesem Artikel besteht darin, den textbedingten VDM durch die folgenden zwei Hauptideen dazu zu bringen, eine hohe Wiedergabetreue zum Eingabevideo beizubehalten
  • . Zum einen wird kein reines Rauschen als Modellinitialisierung verwendet, sondern eine herabgestufte Version des Originalvideos, um durch Reduzierung der Größe und Hinzufügen von Rauschen nur geringe räumlich-zeitliche Informationen beizubehalten. Zum anderen soll die Wiedergabetreue des Originalvideos durch Feinabstimmung weiter verbessert werden Generatives Modell auf dem Originalvideo Spend.
  • Durch die Feinabstimmung wird sichergestellt, dass das Modell die hochauflösenden Eigenschaften des Originalvideos versteht. Eine einfache Feinabstimmung des Eingabevideos trägt zu einer relativ geringen Bewegungsbearbeitbarkeit bei, da das Modell lernt, Rohbewegungen zu bevorzugen, anstatt Textaufforderungen zu folgen. Wir schlagen eine neuartige hybride Feinabstimmungsmethode vor, bei der der VDM auch auf eine Reihe einzelner Frames des Eingabevideos feinabgestimmt wird und deren Timing verwirft. Die Feinabstimmung der Mischung verbessert die Qualität der Bewegungsbearbeitung erheblich.
  • Die Forscher nutzten ihr Videobearbeitungsmodell außerdem, um ein neues Bildanimations-Framework vorzuschlagen, wie in Abbildung 2 unten dargestellt. Das Framework besteht aus mehreren Schritten, wie zum Beispiel dem Animieren von Objekten und Hintergründen in Bildern, dem Erstellen dynamischer Kamerabewegungen und mehr. Sie tun dies durch einfache Bildverarbeitungsvorgänge wie das Kopieren von Bildern oder geometrische Bildtransformationen und erstellen so grobe Videos. Verwenden Sie dann den Dreamix-Videoeditor, um das Video zu bearbeiten. Darüber hinaus nutzten die Forscher auch ihre Feinabstimmungsmethode für die zielgerichtete Videogenerierung, die Videoversion von Dreambooth.

Im experimentellen Anzeigeteil führten die Forscher umfangreiche qualitative Untersuchungen und manuelle Bewertungen durch, um die leistungsstarken Fähigkeiten ihrer Methode zu demonstrieren. Einzelheiten finden Sie in der folgenden Animation.

Für Google In dieser Studie sagen einige, dass 3D+-Bewegungs- und Bearbeitungstools ein heißes Thema für die nächste Welle von Artikeln sein könnten.

Google ist der erste Anbieter von AIGC zur Videogenerierung, Internetnutzer: Sie können Filme anpassen

Jemand anderes hat gesagt: Du kannst bald deinen eigenen Film mit kleinem Budget machen, alles was du brauchst ist ein Greenscreen und diese Technologie: #🎜🎜 #

Google ist der erste Anbieter von AIGC zur Videogenerierung, Internetnutzer: Sie können Filme anpassen

Methodenübersicht

#🎜🎜 #Dieser Artikel schlägt eine vor Neue Methode zur Videobearbeitung, insbesondere:

Textgesteuerte Videobearbeitung durch Umkehren beschädigter Videos#🎜 🎜#

Google ist der erste Anbieter von AIGC zur Videogenerierung, Internetnutzer: Sie können Filme anpassen# 🎜🎜#

Sie verwenden kaskadiertes VDM (Video Diffusion Models), um zunächst das Eingangsvideo durch Downsampling bis zu einem gewissen Grad zu zerstören und dann Rauschen hinzuzufügen. Als nächstes wird ein Kaskadendiffusionsmodell für den Sampling-Prozess verwendet und abhängig von der Zeit t wird das Video auf die endgültige zeitlich-räumliche Auflösung hochskaliert. ​

Beim Zerstören des Eingabevideos müssen Sie zunächst einen Downsampling-Vorgang durchführen, um das Grundmodell (16 Bilder 24 × 40) zu erhalten. , und fügen Sie dann Gaußsches Rauschen mit einer Varianz von

hinzu, um das Eingabevideo weiter zu zerstören. ​

Für das oben verarbeitete Video besteht der nächste Vorgang darin, kaskadiertes VDM zu verwenden, um das beschädigte Video mit niedriger Auflösung so abzubilden, dass es mit dem Text mit hoher Auflösung übereinstimmt Video. Der Kerngedanke hierbei ist, dass es angesichts eines verrauschten Videos mit sehr geringer zeitlicher und räumlicher Auflösung viele durchaus realisierbare entsprechende Videos mit hoher Auflösung gibt. Das Grundmodell in diesem Artikel geht von einem beschädigten Video aus, das das gleiche Rauschen aufweist wie der Diffusionsprozess zum Zeitpunkt s. Die Studie verwendete dann VDM, um den Diffusionsprozess bis zum Zeitpunkt 0 umzukehren. Schließlich wird das Video durch das Super-Resolution-Modell aufgewertet.

Feinabstimmung gemischter Videobilder

Google ist der erste Anbieter von AIGC zur Videogenerierung, Internetnutzer: Sie können Filme anpassenNur Eingangsvideo verwenden Für das Video wird durch die Feinabstimmung des Diffusionsmodells die Änderung der Objektbewegung begrenzt. Stattdessen wird in dieser Studie ein Hybridziel verwendet, d. h. zusätzlich zum ursprünglichen Ziel (untere linke Ecke) wird in diesem Artikel auch ein ungeordneter Rahmen optimiert Dies wird durch „maskierte zeitliche Aufmerksamkeit“ erreicht, um eine Feinabstimmung der zeitlichen Aufmerksamkeit und Faltung zu verhindern (unten rechts). Dieser Vorgang ermöglicht das Hinzufügen von Bewegung zu statischen Videos.

Begründung​#🎜 🎜#

Basierend auf der Anwendungsvorverarbeitung (anwendungsabhängige Vorverarbeitung, links in der Abbildung unten) unterstützt diese Forschung mehrere Anwendungen und kann Eingabeinhalte in ein einheitliches Videoformat konvertieren. Bei der Bild-zu-Video-Umwandlung wird das Eingabebild kopiert und transformiert, wodurch ein grobes Video mit etwas Kamerabewegung synthetisiert wird. Für die objektgesteuerte Videogenerierung wird die Eingabe weggelassen und separat feinabgestimmt, um die Wiedergabetreue aufrechtzuerhalten. Dieses Rohvideo wurde dann mit dem Dreamix Video Editor (rechts) bearbeitet: Wie bereits erwähnt, wurde das Video zunächst durch Downsampling zerstört, wodurch Rauschen hinzugefügt wurde. Anschließend wird ein fein abgestimmtes textgesteuertes Videodiffusionsmodell angewendet, um das Video auf seine endgültige zeitliche und räumliche Auflösung hochzuskalieren.

Experimentelle ErgebnisseGoogle ist der erste Anbieter von AIGC zur Videogenerierung, Internetnutzer: Sie können Filme anpassen

Videobearbeitung: Dreamix verändert die Aktion, um im Bild zu tanzen unten, und das Aussehen ändert sich von einem Affen zu einem Bären, aber die grundlegenden Eigenschaften des Motivs im Video haben sich nicht geändert:

Google ist der erste Anbieter von AIGC zur Videogenerierung, Internetnutzer: Sie können Filme anpassen


Dreamix kann auch sanfte visuelle Modifikationen erzeugen, die mit den eingegebenen Videozeitinformationen übereinstimmen, wie zum Beispiel die folgende Figur eines Skateboard-Hirsches:

Google ist der erste Anbieter von AIGC zur Videogenerierung, Internetnutzer: Sie können Filme anpassen

Bild zu Video: Wenn der Eingabe ist ein Bild. Dreamix kann seine Videoprioritäten verwenden, um neue bewegliche Objekte hinzuzufügen, wie das Bild unten, in dem ein Einhorn in einem nebligen Wald erscheint und heranzoomt.

Google ist der erste Anbieter von AIGC zur Videogenerierung, Internetnutzer: Sie können Filme anpassen

Pinguine erscheinen neben der Hütte:

Google ist der erste Anbieter von AIGC zur Videogenerierung, Internetnutzer: Sie können Filme anpassen

Zielgerichtete Videogenerierung: Dreamix kann auch eine Sammlung von Bildern mit demselben Thema erstellen und daraus ein neues Video erstellen bewegliches Objekt mit diesem Thema. Das Bild unten zeigt eine Raupe, die sich auf einem Blatt windet:

Google ist der erste Anbieter von AIGC zur Videogenerierung, Internetnutzer: Sie können Filme anpassen

Zusätzlich zur qualitativen Analyse führte die Studie auch einen Basisvergleich durch, wobei hauptsächlich Dreamix mit Imagen-Video und Plug-and-Play (PnP) verglichen wurde Methode zum Vergleich. Die folgende Tabelle zeigt die Bewertungsergebnisse:

Google ist der erste Anbieter von AIGC zur Videogenerierung, Internetnutzer: Sie können Filme anpassen

Abbildung 8 zeigt ein von Dreamix bearbeitetes Video und zwei Basisbeispiele: Das Text-zu-Video-Modell erreicht eine Bearbeitung mit niedriger Wiedergabetreue, da es nicht das Originalvideo verwendet als Bedingung. PnP behält die Szene bei, aber es mangelt an Konsistenz von Bild zu Bild; Dreamix schneidet bei allen drei Zielen gut ab.

Google ist der erste Anbieter von AIGC zur Videogenerierung, Internetnutzer: Sie können Filme anpassen

Weitere technische Details finden Sie im Originalpapier.

Das obige ist der detaillierte Inhalt vonGoogle ist der erste Anbieter von AIGC zur Videogenerierung, Internetnutzer: Sie können Filme anpassen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:51cto.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage