


StreamingT2V, ein Generator für lange Videos mit zwei Minuten und 1.200 Bildern, ist da, und der Code wird Open Source sein
Weitwinkelaufnahme des Schlachtfeldes, Sturmtruppen rennen...
prompt: Weitwinkelaufnahme des Schlachtfeldes, Sturmtruppen rennen...
Dieses 2-minütige Video mit 1200 Bildern ist ein aus Text (Text) generiertes Video -to-Video)-Modell. Obwohl die Spuren von KI immer noch deutlich zu erkennen sind, zeigen die Charaktere und Szenen eine recht gute Konsistenz.
Wie geht das? Sie sollten wissen, dass die Generierungsqualität und Textausrichtungsqualität der Vincent-Videotechnologie in den letzten Jahren zwar recht gut war, sich die meisten vorhandenen Methoden jedoch auf die Erstellung kurzer Videos (normalerweise 16 oder 24 Bilder lang) konzentrieren. Bestehende Methoden, die für kurze Videos funktionieren, funktionieren jedoch oft nicht bei langen Videos (≥ 64 Bilder).
Selbst das Generieren kurzer Sequenzen erfordert oft kostspielige Schulungen, wie z. B. Trainingsschritte von mehr als 260 KB und Stapelgrößen von mehr als 4500. Wenn Sie nicht an längeren Videos trainieren und einen Kurzvideogenerator verwenden, um lange Videos zu erstellen, sind die resultierenden langen Videos oft von schlechter Qualität. Die bestehende autoregressive Methode (Erzeugung eines neuen kurzen Videos unter Verwendung der letzten paar Bilder des kurzen Videos und anschließende Synthese des langen Videos) weist auch einige Probleme auf, wie z. B. einen inkonsistenten Szenenwechsel.
Um die Mängel bestehender Methoden auszugleichen, haben Picsart AI Research und andere Institutionen gemeinsam eine neue Vincent-Videomethode vorgeschlagen: StreamingT2V. Diese Methode nutzt autoregressive Technologie und kombiniert sie mit einem langen Kurzzeitgedächtnismodul, wodurch lange Videos mit starker zeitlicher Kohärenz generiert werden können.
- Papiertitel: StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text
- Papieradresse: https://arxiv.org/abs/2403.14773
- Projektadresse: https ://streamingt2v.github.io/
Das Folgende ist ein 600-Frame-1-Minuten-Videogenerierungsergebnis. Sie können sehen, dass Bienen und Blumen eine hervorragende Konsistenz haben:
Daher hat das Team Folgendes vorgeschlagen Bedingungen Aufmerksamkeitsmodul (CAM). CAM nutzt seinen Aufmerksamkeitsmechanismus, um Informationen aus vorherigen Frames effektiv zu integrieren, um neue Frames zu generieren, und kann Bewegungen in neuen Frames frei verarbeiten, ohne durch die Struktur oder Form vorheriger Frames eingeschränkt zu sein.
Um das Problem der Erscheinungsänderungen von Personen und Objekten im generierten Video zu lösen, schlug das Team außerdem das Erscheinungserhaltungsmodul (APM) vor: Es kann die Erscheinungsinformationen von Objekten oder globalen Szenen aus einem Anfangsbild extrahieren ( Ankerrahmen) und verwenden Sie diese Informationen, um den Videogenerierungsprozess für alle Videoblöcke zu regulieren.
Um die Qualität und Auflösung der Generierung langer Videos weiter zu verbessern, verbesserte das Team ein Videoverbesserungsmodell für die Aufgabe der autoregressiven Generierung. Dazu wählte das Team ein hochauflösendes Vincent-Videomodell aus und verbesserte mit der SDEdit-Methode die Qualität von 24 aufeinanderfolgenden Videoblöcken (mit 8 überlappenden Bildern).
Um den Übergang zur Videoblockverbesserung reibungslos zu gestalten, haben sie außerdem eine Zufallsmischmethode entwickelt, die überlappende verbesserte Videoblöcke nahtlos miteinander verbindet.
Methode
Erstellen Sie zunächst ein 5-Sekunden-Video mit einer Auflösung von 256 × 256 (16 fps) und verbessern Sie es dann auf eine höhere Auflösung (720 × 720). Abbildung 2 zeigt den vollständigen Arbeitsablauf.
Der lange Videogenerierungsteil besteht aus der Initialisierungsphase und der Streaming-T2V-Phase.
Unter anderem verwendet die Initialisierungsphase ein vorab trainiertes Vincent-Videomodell (Sie können beispielsweise Modelscope verwenden), um den ersten 16-Frame-Videoblock zu generieren, während die Streaming-Vincent-Videophase nachfolgende Frames auf autoregressive Weise generiert . Neuer Inhalt.
Für den autoregressiven Prozess (siehe Abbildung 3) kann das vom Team neu vorgeschlagene CAM die Kurzzeitinformationen der letzten 8 Bilder des vorherigen Videoblocks nutzen, um einen nahtlosen Wechsel zwischen Blöcken zu erreichen. Darüber hinaus werden sie das neu vorgeschlagene APM-Modul verwenden, um Langzeitinformationen eines festen Ankerrahmens zu extrahieren, sodass der autoregressive Prozess Änderungen an Dingen und Szenendetails während des Generierungsprozesses robust bewältigen kann.
Nachdem sie lange Videos (80, 240, 600, 1200 oder mehr Bilder) erstellt haben, verbessern sie dann die Videoqualität durch die Streaming Refinement Stage. Dieser Prozess verwendet ein hochauflösendes Vison-Kurzvideomodell (z. B. MS-Vid2Vid-XL) auf autoregressive Weise, gekoppelt mit einer neu vorgeschlagenen stochastischen Mischmethode für eine nahtlose Videoblockverarbeitung. Darüber hinaus erfordert der letzte Schritt kein zusätzliches Training, was diese Methode weniger rechenintensiv macht.
Modul für bedingte Aufmerksamkeit
Zuerst wird das verwendete vorab trainierte Vincent-Videomodell (kurz) als Video-LDM bezeichnet. Das Aufmerksamkeitsmodul (CAM) besteht aus einem Feature-Extraktor und einem Feature-Injektor, die in Video-LDM UNet eingespeist werden.
Der Feature-Extraktor verwendet einen Frame-by-Frame-Bildencoder, gefolgt von derselben Encoderschicht, die von Video-LDM UNet bis zur mittleren Schicht verwendet wird (und durch das Gewicht von UNet initialisiert wird).
Für die Feature-Injection besteht das Design hier darin, jede Sprungverbindung mit großer Reichweite in UNet durch Kreuzaufmerksamkeit auf die entsprechenden Features zu konzentrieren, die von CAM generiert werden.
Appearance Preservation Module
Das APM-Modul integriert das Langzeitgedächtnis in den Videogenerierungsprozess, indem es Informationen aus festen Ankerrahmen nutzt. Dies trägt dazu bei, Szenen- und Objekteigenschaften während der Video-Patch-Generierung beizubehalten.
Damit APM die Verarbeitung der durch Ankerrahmen und Textanweisungen bereitgestellten Führungsinformationen ausgleichen kann, hat das Team zwei Verbesserungen vorgenommen: (1) Mischen Sie das CLIP-Bild-Token des Ankerrahmens mit dem CLIP-Text-Token der Textanweisung ; (2) Für jede Queraufmerksamkeitsschicht wird ein Gewicht eingeführt, um Queraufmerksamkeit zu nutzen.
Autoregressive Videoverbesserung
Um die generierten Videoblöcke von 24 Frames autoregressiv zu verbessern, wird hier ein hochauflösender (1280x720) Refiner Video-LDM verwendet, siehe Bild 3). Dieser Prozess wird durchgeführt, indem zunächst eine große Menge Rauschen zum Eingabevideoblock hinzugefügt und dann dieses Vincent-Videodiffusionsmodell verwendet wird, um eine Entrauschungsverarbeitung durchzuführen.
Diese Methode reicht jedoch nicht aus, um das Problem der Übergangsinkongruenz zwischen Videoblöcken zu lösen.
Zu diesem Zweck ist die Lösung des Teams eine Zufallsmischmethode. Einzelheiten entnehmen Sie bitte dem Originalpapier.
Experiment
Im Experiment verwendet das Team folgende Bewertungsmetriken: SCuts-Score zur Bewertung der zeitlichen Konsistenz, Motion-Aware Twist Error (MAWE) zur Bewertung von Bewegungs- und Twist-Fehlern, CLIP-Text-Bild-Ähnlichkeits-Score (CLIP) und Ästhetik-Score (AE) zur Bewertung der Qualität der Textausrichtung.
Ablationsstudie
Um die Wirksamkeit verschiedener neuer Komponenten zu bewerten, führte das Team eine Ablationsstudie an 75 Stichproben durch, die zufällig aus dem Validierungssatz ausgewählt wurden.
CAM für bedingte Verarbeitung: CAM hilft dem Modell, konsistentere Videos zu generieren, wobei SCuts im Vergleich 88 % niedrigere Werte als andere Basismodelle erzielt.
Langzeitgedächtnis: Abbildung 6 zeigt, dass das Langzeitgedächtnis erheblich dazu beitragen kann, die Stabilität der Eigenschaften von Objekten und Szenen während des autoregressiven Generierungsprozesses aufrechtzuerhalten.
Bei einer quantitativen Bewertungsmetrik (Personen-Re-Identifikations-Score) erzielte APM eine Verbesserung um 20 %.
Zufälliges Mischen zur Videoverbesserung: Im Vergleich zu den beiden anderen Benchmarks kann das zufällige Mischen erhebliche Qualitätsverbesserungen bringen. Aus Abbildung 4 ist auch ersichtlich: StreamingT2V kann flüssigere Übergänge erzielen.
StreamingT2V im Vergleich zum Basismodell
Das Team verglich die Integration des oben genannten verbesserten StreamingT2V mit mehreren Modellen, einschließlich der Bild-zu-Video-Methode I2VGen unter Verwendung eines autoregressiven Ansatzes, durch quantitative und qualitative Auswertungen XL, SVD, DynamiCrafter-XL, SEINE, Video-to-Video-Methode SparseControl, Text-to-Long-Video-Methode FreeNoise.
Quantitative Bewertung: Wie aus Tabelle 8 hervorgeht, zeigt die quantitative Bewertung des Testsatzes, dass StreamingT2V hinsichtlich des nahtlosen Videoblockübergangs und der Bewegungskonsistenz am besten abschneidet. Auch der MAWE-Score der neuen Methode ist deutlich besser als alle anderen Methoden – sogar mehr als 50 % niedriger als der zweitbeste SEINE. Ein ähnliches Verhalten ist in den SCuts-Ergebnissen zu beobachten.
Außerdem ist StreamingT2V SparseCtrl hinsichtlich der Einzelbildqualität des generierten Videos nur geringfügig unterlegen. Dies zeigt, dass diese neue Methode in der Lage ist, qualitativ hochwertige lange Videos mit besserer zeitlicher Konsistenz und Bewegungsdynamik als andere Vergleichsmethoden zu generieren.
Qualitative Bewertung: Die folgende Abbildung zeigt den Vergleich der Auswirkungen von StreamingT2V mit anderen Methoden. Es ist ersichtlich, dass die neue Methode eine bessere Konsistenz beibehalten und gleichzeitig die dynamische Wirkung des Videos gewährleisten kann.
Weitere Forschungsdetails finden Sie im Originalpapier.
Das obige ist der detaillierte Inhalt vonStreamingT2V, ein Generator für lange Videos mit zwei Minuten und 1.200 Bildern, ist da, und der Code wird Open Source sein. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



Bei der Konvertierung von Zeichenfolgen in Objekte in Vue.js wird JSON.Parse () für Standard -JSON -Zeichenfolgen bevorzugt. Bei nicht standardmäßigen JSON-Zeichenfolgen kann die Zeichenfolge durch Verwendung regelmäßiger Ausdrücke verarbeitet und Methoden gemäß dem Format oder dekodierten URL-kodiert reduziert werden. Wählen Sie die entsprechende Methode gemäß dem String -Format aus und achten Sie auf Sicherheits- und Codierungsprobleme, um Fehler zu vermeiden.

Der Artikel führt den Betrieb der MySQL -Datenbank vor. Zunächst müssen Sie einen MySQL -Client wie MySQLworkBench oder Befehlszeilen -Client installieren. 1. Verwenden Sie den Befehl mySQL-uroot-P, um eine Verbindung zum Server herzustellen und sich mit dem Stammkonto-Passwort anzumelden. 2. Verwenden Sie die Erstellung von Createdatabase, um eine Datenbank zu erstellen, und verwenden Sie eine Datenbank aus. 3.. Verwenden Sie CreateTable, um eine Tabelle zu erstellen, Felder und Datentypen zu definieren. 4. Verwenden Sie InsertInto, um Daten einzulegen, Daten abzufragen, Daten nach Aktualisierung zu aktualisieren und Daten nach Löschen zu löschen. Nur indem Sie diese Schritte beherrschen, lernen, mit gemeinsamen Problemen umzugehen und die Datenbankleistung zu optimieren, können Sie MySQL effizient verwenden.

Es gibt viele Gründe, warum MySQL Startup fehlschlägt und durch Überprüfung des Fehlerprotokolls diagnostiziert werden kann. Zu den allgemeinen Ursachen gehören Portkonflikte (prüfen Portbelegung und Änderung der Konfiguration), Berechtigungsprobleme (Überprüfen Sie den Dienst Ausführen von Benutzerberechtigungen), Konfigurationsdateifehler (Überprüfung der Parametereinstellungen), Datenverzeichniskorruption (Wiederherstellung von Daten oder Wiederaufbautabellenraum), InnoDB-Tabellenraumprobleme (prüfen IBDATA1-Dateien), Plug-in-Ladeversagen (Überprüfen Sie Fehlerprotokolle). Wenn Sie Probleme lösen, sollten Sie sie anhand des Fehlerprotokolls analysieren, die Hauptursache des Problems finden und die Gewohnheit entwickeln, Daten regelmäßig zu unterstützen, um Probleme zu verhindern und zu lösen.

Zusammenfassung: Es gibt die folgenden Methoden zum Umwandeln von VUE.JS -String -Arrays in Objektarrays: Grundlegende Methode: Verwenden Sie die Kartenfunktion, um regelmäßige formatierte Daten zu entsprechen. Erweitertes Gameplay: Die Verwendung regulärer Ausdrücke kann komplexe Formate ausführen, müssen jedoch sorgfältig geschrieben und berücksichtigt werden. Leistungsoptimierung: In Betracht ziehen die große Datenmenge, asynchrone Operationen oder effiziente Datenverarbeitungsbibliotheken können verwendet werden. Best Practice: Clear Code -Stil, verwenden Sie sinnvolle variable Namen und Kommentare, um den Code präzise zu halten.

Verarbeiten Sie 7 Millionen Aufzeichnungen effizient und erstellen Sie interaktive Karten mit Geospatial -Technologie. In diesem Artikel wird untersucht, wie über 7 Millionen Datensätze mithilfe von Laravel und MySQL effizient verarbeitet und in interaktive Kartenvisualisierungen umgewandelt werden können. Erstes Herausforderungsprojektanforderungen: Mit 7 Millionen Datensätzen in der MySQL -Datenbank wertvolle Erkenntnisse extrahieren. Viele Menschen erwägen zunächst Programmiersprachen, aber ignorieren die Datenbank selbst: Kann sie den Anforderungen erfüllen? Ist Datenmigration oder strukturelle Anpassung erforderlich? Kann MySQL einer so großen Datenbelastung standhalten? Voranalyse: Schlüsselfilter und Eigenschaften müssen identifiziert werden. Nach der Analyse wurde festgestellt, dass nur wenige Attribute mit der Lösung zusammenhängen. Wir haben die Machbarkeit des Filters überprüft und einige Einschränkungen festgelegt, um die Suche zu optimieren. Kartensuche basierend auf der Stadt

Um die Zeitüberschreitung für Vue Axios festzulegen, können wir eine Axios -Instanz erstellen und die Zeitleitungsoption angeben: in globalen Einstellungen: vue.Prototyp. $ Axios = axios.create ({Timeout: 5000}); In einer einzigen Anfrage: this. $ axios.get ('/api/user', {timeout: 10000}).

Die MySQL -Leistungsoptimierung muss von drei Aspekten beginnen: Installationskonfiguration, Indexierung und Abfrageoptimierung, Überwachung und Abstimmung. 1. Nach der Installation müssen Sie die my.cnf -Datei entsprechend der Serverkonfiguration anpassen, z. 2. Erstellen Sie einen geeigneten Index, um übermäßige Indizes zu vermeiden und Abfrageanweisungen zu optimieren, z. B. den Befehl Erklärung zur Analyse des Ausführungsplans; 3. Verwenden Sie das eigene Überwachungstool von MySQL (ShowProcessList, Showstatus), um die Datenbankgesundheit zu überwachen und die Datenbank regelmäßig zu sichern und zu organisieren. Nur durch kontinuierliche Optimierung dieser Schritte kann die Leistung der MySQL -Datenbank verbessert werden.

Remote Senior Backend Engineer Job Vacant Company: Circle Standort: Remote-Büro-Jobtyp: Vollzeitgehalt: 130.000 bis 140.000 US-Dollar Stellenbeschreibung Nehmen Sie an der Forschung und Entwicklung von Mobilfunkanwendungen und öffentlichen API-bezogenen Funktionen, die den gesamten Lebenszyklus der Softwareentwicklung abdecken. Die Hauptaufgaben erledigen die Entwicklungsarbeit unabhängig von RubyonRails und arbeiten mit dem Front-End-Team von React/Redux/Relay zusammen. Erstellen Sie die Kernfunktionalität und -verbesserungen für Webanwendungen und arbeiten Sie eng mit Designer und Führung während des gesamten funktionalen Designprozesses zusammen. Fördern Sie positive Entwicklungsprozesse und priorisieren Sie die Iterationsgeschwindigkeit. Erfordert mehr als 6 Jahre komplexes Backend für Webanwendungen
