Inhaltsverzeichnis
Methode
Experiment
Heim Technologie-Peripheriegeräte KI StreamingT2V, ein Generator für lange Videos mit zwei Minuten und 1.200 Bildern, ist da, und der Code wird Open Source sein

StreamingT2V, ein Generator für lange Videos mit zwei Minuten und 1.200 Bildern, ist da, und der Code wird Open Source sein

Mar 27, 2024 pm 03:17 PM
ai 训练

Weitwinkelaufnahme des Schlachtfeldes, Sturmtruppen rennen...

StreamingT2V, ein Generator für lange Videos mit zwei Minuten und 1.200 Bildern, ist da, und der Code wird Open Source sein

prompt: Weitwinkelaufnahme des Schlachtfeldes, Sturmtruppen rennen...

Dieses 2-minütige Video mit 1200 Bildern ist ein aus Text (Text) generiertes Video -to-Video)-Modell. Obwohl die Spuren von KI immer noch deutlich zu erkennen sind, zeigen die Charaktere und Szenen eine recht gute Konsistenz.

Wie geht das? Sie sollten wissen, dass die Generierungsqualität und Textausrichtungsqualität der Vincent-Videotechnologie in den letzten Jahren zwar recht gut war, sich die meisten vorhandenen Methoden jedoch auf die Erstellung kurzer Videos (normalerweise 16 oder 24 Bilder lang) konzentrieren. Bestehende Methoden, die für kurze Videos funktionieren, funktionieren jedoch oft nicht bei langen Videos (≥ 64 Bilder).

Selbst das Generieren kurzer Sequenzen erfordert oft kostspielige Schulungen, wie z. B. Trainingsschritte von mehr als 260 KB und Stapelgrößen von mehr als 4500. Wenn Sie nicht an längeren Videos trainieren und einen Kurzvideogenerator verwenden, um lange Videos zu erstellen, sind die resultierenden langen Videos oft von schlechter Qualität. Die bestehende autoregressive Methode (Erzeugung eines neuen kurzen Videos unter Verwendung der letzten paar Bilder des kurzen Videos und anschließende Synthese des langen Videos) weist auch einige Probleme auf, wie z. B. einen inkonsistenten Szenenwechsel.

Um die Mängel bestehender Methoden auszugleichen, haben Picsart AI Research und andere Institutionen gemeinsam eine neue Vincent-Videomethode vorgeschlagen: StreamingT2V. Diese Methode nutzt autoregressive Technologie und kombiniert sie mit einem langen Kurzzeitgedächtnismodul, wodurch lange Videos mit starker zeitlicher Kohärenz generiert werden können.

StreamingT2V, ein Generator für lange Videos mit zwei Minuten und 1.200 Bildern, ist da, und der Code wird Open Source sein

  • Papiertitel: StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text
  • Papieradresse: https://arxiv.org/abs/2403.14773
  • Projektadresse: https ://streamingt2v.github.io/

Das Folgende ist ein 600-Frame-1-Minuten-Videogenerierungsergebnis. Sie können sehen, dass Bienen und Blumen eine hervorragende Konsistenz haben:

Daher hat das Team Folgendes vorgeschlagen Bedingungen Aufmerksamkeitsmodul (CAM). CAM nutzt seinen Aufmerksamkeitsmechanismus, um Informationen aus vorherigen Frames effektiv zu integrieren, um neue Frames zu generieren, und kann Bewegungen in neuen Frames frei verarbeiten, ohne durch die Struktur oder Form vorheriger Frames eingeschränkt zu sein.

Um das Problem der Erscheinungsänderungen von Personen und Objekten im generierten Video zu lösen, schlug das Team außerdem das Erscheinungserhaltungsmodul (APM) vor: Es kann die Erscheinungsinformationen von Objekten oder globalen Szenen aus einem Anfangsbild extrahieren ( Ankerrahmen) und verwenden Sie diese Informationen, um den Videogenerierungsprozess für alle Videoblöcke zu regulieren.

Um die Qualität und Auflösung der Generierung langer Videos weiter zu verbessern, verbesserte das Team ein Videoverbesserungsmodell für die Aufgabe der autoregressiven Generierung. Dazu wählte das Team ein hochauflösendes Vincent-Videomodell aus und verbesserte mit der SDEdit-Methode die Qualität von 24 aufeinanderfolgenden Videoblöcken (mit 8 überlappenden Bildern).

Um den Übergang zur Videoblockverbesserung reibungslos zu gestalten, haben sie außerdem eine Zufallsmischmethode entwickelt, die überlappende verbesserte Videoblöcke nahtlos miteinander verbindet.

Methode

Erstellen Sie zunächst ein 5-Sekunden-Video mit einer Auflösung von 256 × 256 (16 fps) und verbessern Sie es dann auf eine höhere Auflösung (720 × 720). Abbildung 2 zeigt den vollständigen Arbeitsablauf.

StreamingT2V, ein Generator für lange Videos mit zwei Minuten und 1.200 Bildern, ist da, und der Code wird Open Source sein

Der lange Videogenerierungsteil besteht aus der Initialisierungsphase und der Streaming-T2V-Phase.

Unter anderem verwendet die Initialisierungsphase ein vorab trainiertes Vincent-Videomodell (Sie können beispielsweise Modelscope verwenden), um den ersten 16-Frame-Videoblock zu generieren, während die Streaming-Vincent-Videophase nachfolgende Frames auf autoregressive Weise generiert . Neuer Inhalt.

Für den autoregressiven Prozess (siehe Abbildung 3) kann das vom Team neu vorgeschlagene CAM die Kurzzeitinformationen der letzten 8 Bilder des vorherigen Videoblocks nutzen, um einen nahtlosen Wechsel zwischen Blöcken zu erreichen. Darüber hinaus werden sie das neu vorgeschlagene APM-Modul verwenden, um Langzeitinformationen eines festen Ankerrahmens zu extrahieren, sodass der autoregressive Prozess Änderungen an Dingen und Szenendetails während des Generierungsprozesses robust bewältigen kann.

StreamingT2V, ein Generator für lange Videos mit zwei Minuten und 1.200 Bildern, ist da, und der Code wird Open Source sein

Nachdem sie lange Videos (80, 240, 600, 1200 oder mehr Bilder) erstellt haben, verbessern sie dann die Videoqualität durch die Streaming Refinement Stage. Dieser Prozess verwendet ein hochauflösendes Vison-Kurzvideomodell (z. B. MS-Vid2Vid-XL) auf autoregressive Weise, gekoppelt mit einer neu vorgeschlagenen stochastischen Mischmethode für eine nahtlose Videoblockverarbeitung. Darüber hinaus erfordert der letzte Schritt kein zusätzliches Training, was diese Methode weniger rechenintensiv macht.

Modul für bedingte Aufmerksamkeit

Zuerst wird das verwendete vorab trainierte Vincent-Videomodell (kurz) als Video-LDM bezeichnet. Das Aufmerksamkeitsmodul (CAM) besteht aus einem Feature-Extraktor und einem Feature-Injektor, die in Video-LDM UNet eingespeist werden.

Der Feature-Extraktor verwendet einen Frame-by-Frame-Bildencoder, gefolgt von derselben Encoderschicht, die von Video-LDM UNet bis zur mittleren Schicht verwendet wird (und durch das Gewicht von UNet initialisiert wird).

Für die Feature-Injection besteht das Design hier darin, jede Sprungverbindung mit großer Reichweite in UNet durch Kreuzaufmerksamkeit auf die entsprechenden Features zu konzentrieren, die von CAM generiert werden.

Appearance Preservation Module

Das APM-Modul integriert das Langzeitgedächtnis in den Videogenerierungsprozess, indem es Informationen aus festen Ankerrahmen nutzt. Dies trägt dazu bei, Szenen- und Objekteigenschaften während der Video-Patch-Generierung beizubehalten.

Damit APM die Verarbeitung der durch Ankerrahmen und Textanweisungen bereitgestellten Führungsinformationen ausgleichen kann, hat das Team zwei Verbesserungen vorgenommen: (1) Mischen Sie das CLIP-Bild-Token des Ankerrahmens mit dem CLIP-Text-Token der Textanweisung ; (2) Für jede Queraufmerksamkeitsschicht wird ein Gewicht eingeführt, um Queraufmerksamkeit zu nutzen.

Autoregressive Videoverbesserung

Um die generierten Videoblöcke von 24 Frames autoregressiv zu verbessern, wird hier ein hochauflösender (1280x720) Refiner Video-LDM verwendet, siehe Bild 3). Dieser Prozess wird durchgeführt, indem zunächst eine große Menge Rauschen zum Eingabevideoblock hinzugefügt und dann dieses Vincent-Videodiffusionsmodell verwendet wird, um eine Entrauschungsverarbeitung durchzuführen.

Diese Methode reicht jedoch nicht aus, um das Problem der Übergangsinkongruenz zwischen Videoblöcken zu lösen.

Zu diesem Zweck ist die Lösung des Teams eine Zufallsmischmethode. Einzelheiten entnehmen Sie bitte dem Originalpapier.

Experiment

Im Experiment verwendet das Team folgende Bewertungsmetriken: SCuts-Score zur Bewertung der zeitlichen Konsistenz, Motion-Aware Twist Error (MAWE) zur Bewertung von Bewegungs- und Twist-Fehlern, CLIP-Text-Bild-Ähnlichkeits-Score (CLIP) und Ästhetik-Score (AE) zur Bewertung der Qualität der Textausrichtung.

Ablationsstudie

Um die Wirksamkeit verschiedener neuer Komponenten zu bewerten, führte das Team eine Ablationsstudie an 75 Stichproben durch, die zufällig aus dem Validierungssatz ausgewählt wurden.

CAM für bedingte Verarbeitung: CAM hilft dem Modell, konsistentere Videos zu generieren, wobei SCuts im Vergleich 88 % niedrigere Werte als andere Basismodelle erzielt.

Langzeitgedächtnis: Abbildung 6 zeigt, dass das Langzeitgedächtnis erheblich dazu beitragen kann, die Stabilität der Eigenschaften von Objekten und Szenen während des autoregressiven Generierungsprozesses aufrechtzuerhalten.

StreamingT2V, ein Generator für lange Videos mit zwei Minuten und 1.200 Bildern, ist da, und der Code wird Open Source sein

Bei einer quantitativen Bewertungsmetrik (Personen-Re-Identifikations-Score) erzielte APM eine Verbesserung um 20 %.

Zufälliges Mischen zur Videoverbesserung: Im Vergleich zu den beiden anderen Benchmarks kann das zufällige Mischen erhebliche Qualitätsverbesserungen bringen. Aus Abbildung 4 ist auch ersichtlich: StreamingT2V kann flüssigere Übergänge erzielen.

StreamingT2V, ein Generator für lange Videos mit zwei Minuten und 1.200 Bildern, ist da, und der Code wird Open Source sein

StreamingT2V im Vergleich zum Basismodell

Das Team verglich die Integration des oben genannten verbesserten StreamingT2V mit mehreren Modellen, einschließlich der Bild-zu-Video-Methode I2VGen unter Verwendung eines autoregressiven Ansatzes, durch quantitative und qualitative Auswertungen XL, SVD, DynamiCrafter-XL, SEINE, Video-to-Video-Methode SparseControl, Text-to-Long-Video-Methode FreeNoise.

Quantitative Bewertung: Wie aus Tabelle 8 hervorgeht, zeigt die quantitative Bewertung des Testsatzes, dass StreamingT2V hinsichtlich des nahtlosen Videoblockübergangs und der Bewegungskonsistenz am besten abschneidet. Auch der MAWE-Score der neuen Methode ist deutlich besser als alle anderen Methoden – sogar mehr als 50 % niedriger als der zweitbeste SEINE. Ein ähnliches Verhalten ist in den SCuts-Ergebnissen zu beobachten.

StreamingT2V, ein Generator für lange Videos mit zwei Minuten und 1.200 Bildern, ist da, und der Code wird Open Source sein

Außerdem ist StreamingT2V SparseCtrl hinsichtlich der Einzelbildqualität des generierten Videos nur geringfügig unterlegen. Dies zeigt, dass diese neue Methode in der Lage ist, qualitativ hochwertige lange Videos mit besserer zeitlicher Konsistenz und Bewegungsdynamik als andere Vergleichsmethoden zu generieren.

Qualitative Bewertung: Die folgende Abbildung zeigt den Vergleich der Auswirkungen von StreamingT2V mit anderen Methoden. Es ist ersichtlich, dass die neue Methode eine bessere Konsistenz beibehalten und gleichzeitig die dynamische Wirkung des Videos gewährleisten kann.

StreamingT2V, ein Generator für lange Videos mit zwei Minuten und 1.200 Bildern, ist da, und der Code wird Open Source sein

Weitere Forschungsdetails finden Sie im Originalpapier.

Das obige ist der detaillierte Inhalt vonStreamingT2V, ein Generator für lange Videos mit zwei Minuten und 1.200 Bildern, ist da, und der Code wird Open Source sein. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Wie man MySQL löst, kann nicht gestartet werden Wie man MySQL löst, kann nicht gestartet werden Apr 08, 2025 pm 02:21 PM

Es gibt viele Gründe, warum MySQL Startup fehlschlägt und durch Überprüfung des Fehlerprotokolls diagnostiziert werden kann. Zu den allgemeinen Ursachen gehören Portkonflikte (prüfen Portbelegung und Änderung der Konfiguration), Berechtigungsprobleme (Überprüfen Sie den Dienst Ausführen von Benutzerberechtigungen), Konfigurationsdateifehler (Überprüfung der Parametereinstellungen), Datenverzeichniskorruption (Wiederherstellung von Daten oder Wiederaufbautabellenraum), InnoDB-Tabellenraumprobleme (prüfen IBDATA1-Dateien), Plug-in-Ladeversagen (Überprüfen Sie Fehlerprotokolle). Wenn Sie Probleme lösen, sollten Sie sie anhand des Fehlerprotokolls analysieren, die Hauptursache des Problems finden und die Gewohnheit entwickeln, Daten regelmäßig zu unterstützen, um Probleme zu verhindern und zu lösen.

Kann MySQL JSON zurückgeben? Kann MySQL JSON zurückgeben? Apr 08, 2025 pm 03:09 PM

MySQL kann JSON -Daten zurückgeben. Die JSON_EXTRACT -Funktion extrahiert Feldwerte. Über komplexe Abfragen sollten Sie die Where -Klausel verwenden, um JSON -Daten zu filtern, aber auf die Leistungsauswirkungen achten. Die Unterstützung von MySQL für JSON nimmt ständig zu, und es wird empfohlen, auf die neuesten Versionen und Funktionen zu achten.

Verstehen von Säureeigenschaften: Die Säulen einer zuverlässigen Datenbank Verstehen von Säureeigenschaften: Die Säulen einer zuverlässigen Datenbank Apr 08, 2025 pm 06:33 PM

Detaillierte Erläuterung von Datenbanksäureattributen Säureattribute sind eine Reihe von Regeln, um die Zuverlässigkeit und Konsistenz von Datenbanktransaktionen sicherzustellen. Sie definieren, wie Datenbanksysteme Transaktionen umgehen, und sorgen dafür, dass die Datenintegrität und -genauigkeit auch im Falle von Systemabstürzen, Leistungsunterbrechungen oder mehreren Benutzern gleichzeitiger Zugriff. Säureattributübersicht Atomizität: Eine Transaktion wird als unteilbare Einheit angesehen. Jeder Teil schlägt fehl, die gesamte Transaktion wird zurückgerollt und die Datenbank behält keine Änderungen bei. Wenn beispielsweise eine Banküberweisung von einem Konto abgezogen wird, jedoch nicht auf ein anderes erhöht wird, wird der gesamte Betrieb widerrufen. begintransaktion; updateAccountsSetBalance = Balance-100WH

Master SQL Limit -Klausel: Steuern Sie die Anzahl der Zeilen in einer Abfrage Master SQL Limit -Klausel: Steuern Sie die Anzahl der Zeilen in einer Abfrage Apr 08, 2025 pm 07:00 PM

SQllimit -Klausel: Steuern Sie die Anzahl der Zeilen in Abfrageergebnissen. Die Grenzklausel in SQL wird verwendet, um die Anzahl der von der Abfrage zurückgegebenen Zeilen zu begrenzen. Dies ist sehr nützlich, wenn große Datensätze, paginierte Anzeigen und Testdaten verarbeitet werden und die Abfrageeffizienz effektiv verbessern können. Grundlegende Syntax der Syntax: SelectColumn1, Spalte2, ... Fromtable_Namelimitnumber_of_rows; number_of_rows: Geben Sie die Anzahl der zurückgegebenen Zeilen an. Syntax mit Offset: SelectColumn1, Spalte2, ... Fromtable_NamelimitOffset, Number_of_rows; Offset: Skip überspringen

Wie optimieren Sie die MySQL-Leistung für Hochlastanwendungen? Wie optimieren Sie die MySQL-Leistung für Hochlastanwendungen? Apr 08, 2025 pm 06:03 PM

Die MySQL-Datenbankleistung Optimierungshandbuch In ressourcenintensiven Anwendungen spielt die MySQL-Datenbank eine entscheidende Rolle und ist für die Verwaltung massiver Transaktionen verantwortlich. Mit der Erweiterung der Anwendung werden jedoch die Datenbankleistung Engpässe häufig zu einer Einschränkung. In diesem Artikel werden eine Reihe effektiver Strategien zur Leistungsoptimierung von MySQL -Leistung untersucht, um sicherzustellen, dass Ihre Anwendung unter hohen Lasten effizient und reaktionsschnell bleibt. Wir werden tatsächliche Fälle kombinieren, um eingehende Schlüsseltechnologien wie Indexierung, Abfrageoptimierung, Datenbankdesign und Caching zu erklären. 1. Das Design der Datenbankarchitektur und die optimierte Datenbankarchitektur sind der Eckpfeiler der MySQL -Leistungsoptimierung. Hier sind einige Kernprinzipien: Die Auswahl des richtigen Datentyps und die Auswahl des kleinsten Datentyps, der den Anforderungen entspricht, kann nicht nur Speicherplatz speichern, sondern auch die Datenverarbeitungsgeschwindigkeit verbessern.

Der Hauptschlüssel von MySQL kann null sein Der Hauptschlüssel von MySQL kann null sein Apr 08, 2025 pm 03:03 PM

Der MySQL -Primärschlüssel kann nicht leer sein, da der Primärschlüssel ein Schlüsselattribut ist, das jede Zeile in der Datenbank eindeutig identifiziert. Wenn der Primärschlüssel leer sein kann, kann der Datensatz nicht eindeutig identifiziert werden, was zu Datenverwirrung führt. Wenn Sie selbstsinkrementelle Ganzzahlsspalten oder UUIDs als Primärschlüssel verwenden, sollten Sie Faktoren wie Effizienz und Raumbelegung berücksichtigen und eine geeignete Lösung auswählen.

Navicat -Methode zum Anzeigen von MongoDB -Datenbankkennwort Navicat -Methode zum Anzeigen von MongoDB -Datenbankkennwort Apr 08, 2025 pm 09:39 PM

Es ist unmöglich, das MongoDB -Passwort direkt über Navicat anzuzeigen, da es als Hash -Werte gespeichert ist. So rufen Sie verlorene Passwörter ab: 1. Passwörter zurücksetzen; 2. Überprüfen Sie die Konfigurationsdateien (können Hash -Werte enthalten). 3. Überprüfen Sie Codes (May Hardcode -Passwörter).

Überwachen Sie MySQL und Mariadb -Tröpfchen mit Prometheus Mysql Exporteur Überwachen Sie MySQL und Mariadb -Tröpfchen mit Prometheus Mysql Exporteur Apr 08, 2025 pm 02:42 PM

Eine effektive Überwachung von MySQL- und MariADB -Datenbanken ist entscheidend für die Aufrechterhaltung einer optimalen Leistung, die Identifizierung potenzieller Engpässe und die Gewährleistung der Zuverlässigkeit des Gesamtsystems. Prometheus MySQL Exporteur ist ein leistungsstarkes Tool, das detaillierte Einblicke in Datenbankmetriken bietet, die für die proaktive Verwaltung und Fehlerbehebung von entscheidender Bedeutung sind.

See all articles