Ich glaube, viele Menschen haben den Charme der generativen KI-Technologie bereits verstanden, insbesondere nachdem sie den AIGC-Ausbruch im Jahr 2022 erlebt haben. Die von Stable Diffusion repräsentierte Text-zu-Bild-Generierungstechnologie war einst auf der ganzen Welt beliebt, und unzählige Benutzer strömten herbei, um ihre künstlerische Fantasie mithilfe von KI auszudrücken ...
# 🎜🎜# Im Vergleich zur Bildbearbeitung ist die Videobearbeitung ein anspruchsvolleres Thema. Sie erfordert die Synthese neuer Aktionen und nicht nur die Änderung des visuellen Erscheinungsbilds. Außerdem muss die zeitliche Konsistenz gewahrt bleiben.
Es gibt auch viele Unternehmen, die diesen Weg erkunden. Vor einiger Zeit hat Google Dreamix veröffentlicht, um das textbedingte Videodiffusionsmodell (VDM) auf die Videobearbeitung anzuwenden.
Kürzlich hat Runway, ein Unternehmen, das an der Entwicklung von Stable Diffusion beteiligt war, ein neues künstliches Intelligenzmodell „Gen-1“ auf den Markt gebracht, das durch die Anwendung von Texteingabeaufforderungen spezifiziert wird oder Referenzbilder Konvertieren Sie vorhandene Videos in neue Videos in jedem Stil.
Papierlink: https://arxiv.org /pdf/2302.03011.pdf
Projekthomepage: https://research.runwayml.com/gen1#🎜 🎜#
Im Jahr 2021 arbeitete Runway mit Forschern der Universität München zusammen, um die erste Version von Stable Diffusion zu entwickeln. Dann sprang Stability AI, ein britisches Startup, ein, um die Rechenkosten zu finanzieren, die zum Trainieren des Modells auf mehr Daten erforderlich waren. Im Jahr 2022 bringt Stability AI Stable Diffusion in den Mainstream und verwandelt es von einem Forschungsprojekt in ein globales Phänomen.Runway hofft, dass Gen-1 für Videos das tun kann, was Stable Diffusion für Bilder getan hat. „Wir haben eine Explosion von Modellen zur Bilderzeugung erlebt“, sagte Cristóbal Valenzuela, CEO und Mitbegründer von Runway. „Ich bin fest davon überzeugt, dass 2023 das Jahr des Videos sein wird.“ 1. Stilisierung. Übertragen Sie den Stil eines beliebigen Bildes oder einer Eingabeaufforderung auf jedes Bild Ihres Videos.
2. Storyboard. Verwandeln Sie Ihr Modell in ein vollständig stilisiertes und animiertes Rendering.
3. Isolieren Sie Themen in Videos und ändern Sie sie mithilfe einfacher Textansagen.
4. Verwandeln Sie texturloses Rendering in eine fotorealistische Ausgabe, indem Sie Eingabebilder oder Eingabeaufforderungen anwenden.
5. Nutzen Sie die volle Leistung von Gen-1, indem Sie Ihr Modell anpassen, um Ergebnisse mit höherer Wiedergabetreue zu erzielen.
In einer auf der offiziellen Website des Unternehmens veröffentlichten Demo wird gezeigt, wie Gen-1 den Videostil sanft verändern kann. Schauen wir uns einige Beispiele an.
Um beispielsweise „Menschen auf der Straße“ in „Tonpuppen“ zu verwandeln, benötigen Sie nur eine Eingabeaufforderungszeile:
# 🎜🎜##🎜 🎜#
Oder verwandeln Sie „auf dem Tisch gestapelte Bücher“ in „Stadtbild bei Nacht“:
#🎜🎜 ## 🎜🎜#
Von „Laufen auf dem Schnee“ bis „Laufen auf dem Mond“: #🎜 🎜##🎜 🎜#
Das junge Mädchen verwandelte sich in Sekundenschnelle in einen alten Weisen:# 🎜🎜##🎜🎜 #
Visuelle Effekte und Videobearbeitung sind in der zeitgenössischen Medienlandschaft allgegenwärtig. Da videozentrierte Plattformen immer beliebter werden, steigt der Bedarf an intuitiveren und leistungsfähigeren Videobearbeitungstools. Aufgrund der zeitlichen Natur von Videodaten ist die Bearbeitung in diesem Format jedoch immer noch komplex und zeitaufwändig. Hochmoderne Modelle des maschinellen Lernens sind vielversprechend für die Verbesserung des Bearbeitungsprozesses, doch viele Methoden müssen ein Gleichgewicht zwischen zeitlicher Konsistenz und räumlichen Details finden. Generative Methoden zur Bildsynthese haben in letzter Zeit aufgrund der Einführung von Diffusionsmodellen, die auf der Bühne großer Datensätze trainiert wurden, einen rasanten Anstieg an Qualität und Popularität erfahren. Einige textbedingte Modelle wie DALL-E 2 und Stable Diffusion ermöglichen es unerfahrenen Benutzern, detaillierte Bilder mit nur einer Textaufforderung zu generieren. Latente Diffusionsmodelle bieten effiziente Methoden zur Erzeugung von Bildern durch Komposition in einem wahrnehmungsmäßig komprimierten Raum.
In diesem Artikel schlagen die Forscher ein kontrollierbares struktur- und inhaltsbewusstes Videodiffusionsmodell für nicht untertitelte Videos und gepaartes Training auf großen Datensätzen von Text-Bild-Daten vor . Wir haben uns für die Verwendung einer monokularen Tiefenschätzung entschieden, um die Struktur und Einbettungen darzustellen, die von einem vorab trainierten neuronalen Netzwerk zur Darstellung von Inhalten vorhergesagt wurden.
Diese Methode bietet mehrere leistungsstarke Steuerungsmodi während des Generierungsprozesses: Erstens trainierten die Forscher das Modell, ähnlich wie beim Bildsynthesemodell, um den abgeleiteten Videoinhalt, z Das Aussehen oder der Stil entspricht dem vom Benutzer bereitgestellten Bild oder Text (Abbildung 1). Zweitens wandten die Forscher, inspiriert durch den Diffusionsprozess, einen Informationsmaskierungsprozess auf die Strukturdarstellung an, um auswählen zu können, wie gut das Modell eine bestimmte Struktur unterstützt. Abschließend optimieren wir den Inferenzprozess durch eine benutzerdefinierte Leitmethode, die von klassifizierungsfreier Anleitung inspiriert ist, um die Kontrolle über die zeitliche Konsistenz der generierten Segmente zu erreichen.
Insgesamt sind die Highlights dieser Studie wie folgt: Die zeitliche Schicht wird in das Bildmodell eingeführt und gemeinsam auf Bildern und Videos trainiert, wodurch das latente Diffusionsmodell erweitert wird der Bereich der Videogenerierung;
schlägt ein Struktur- und Inhaltsbewusstsein vor. Ein Modell, das das Video unter Anleitung von Beispielbildern oder Texten modifiziert. Die Bearbeitung erfolgt vollständig innerhalb der Inferenzzeit und erfordert keine zusätzliche Schulung oder Vorverarbeitung für jedes Video. Diese Studie ist die erste, die zeigt, dass gemeinsames Training an Bild- und Videodaten die Inferenzzeit zur Kontrolle der zeitlichen Konsistenz ermöglicht. Für strukturelle Konsistenz können Sie durch Training auf verschiedenen Detailebenen in der Darstellung die gewünschten Einstellungen während der Inferenz auswählen beliebter als mehrere andere Methoden; Videos zu bestimmten Themen.
Um die Methode zu evaluieren, nutzten die Forscher DAVIS-Videos und verschiedene Materialien. Um die Bearbeitungsaufforderung automatisch zu erstellen, führten die Forscher zunächst ein Untertitelmodell aus, um eine Beschreibung des ursprünglichen Videoinhalts zu erhalten, und verwendeten dann GPT-3, um die Bearbeitungsaufforderung zu generieren.
Qualitative Studie
Wie in Abbildung 5 gezeigt, beweisen die Ergebnisse, dass die Methode in diesem Artikel bei einigen verschiedenen Eingaben gut funktioniert. Die Forscher führten außerdem eine Benutzerstudie mit Amazon Mechanical Turk (AMT) an einem Bewertungssatz von 35 repräsentativen Videobearbeitungsaufforderungen durch. Für jede Stichprobe wurden 5 Annotatoren gebeten, die Genauigkeit der Videobearbeitungsaufforderungen zwischen der Basismethode und unserer Methode zu vergleichen („Welches Video stellt die bereitgestellten bearbeiteten Untertitel besser dar?“) und dann nach dem Zufallsprinzip nacheinander präsentiert, wobei die Mehrheitsentscheidung zur endgültigen Entscheidung herangezogen wurde Ergebnis. Die Ergebnisse sind in Abbildung 7 dargestellt: Quantitative Bewertung. Die Leistung des Modells in diesem Artikel übertrifft in beiden Aspekten tendenziell das Basismodell (d. h. sie ist in der oberen rechten Ecke der Abbildung höher). Die Forscher stellten außerdem fest, dass es einen leichten Kompromiss bei der Erhöhung des Intensitätsparameters im Basismodell gibt: Eine größere Intensitätsskalierung bedeutet eine höhere Prompt-Konsistenz auf Kosten einer geringeren Frame-Konsistenz. Sie beobachteten auch, dass eine zunehmende strukturelle Skalierung zu einer höheren Eingabeaufforderungskonsistenz führt, da der Inhalt nicht mehr durch die Eingabestruktur bestimmt wird.
Anpassung
Abbildung 10 zeigt ein Beispiel mit unterschiedlicher Anzahl an Anpassungsschritten und unterschiedlichen Ebenen struktureller Abhängigkeiten. Die Forscher stellten fest, dass die Anpassung die Treue zum Stil und Erscheinungsbild des Charakters erhöht, sodass trotz der Verwendung gesteuerter Videos von Charakteren mit unterschiedlichen Eigenschaften in Kombination mit höheren ts-Werten präzise Animationseffekte erzielt werden können.
Das obige ist der detaillierte Inhalt vonDas Hinzufügen von Spezialeffekten erfordert nur einen Satz oder ein Bild. Die Firma Stable Diffusion hat AIGC genutzt, um neue Tricks zu spielen.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!