Die verbrauchten Rechenressourcen betragen nur 2/25 des herkömmlichen Stable Video Diffusion(SVD)Modells!
AnimateLCM-SVD-xt wird veröffentlicht und ändert das Videodiffusionsmodell für wiederholte Rauschunterdrückung, was zeitaufwändig ist und viele Berechnungen erfordert.
Sehen wir uns zunächst den erzeugten Animationseffekt an.
Cyberpunk-Stil ist leicht zu kontrollieren, der Junge trägt Kopfhörer und steht in der neonfarbenen Stadtstraße:
Bilder
Realistischer Stil kann auch verwendet werden, ein frisch verheiratetes Paar kuschelt zusammen und hält einen exquisiten Blumenstrauß in der Hand Erleben Sie die Liebe unter der alten Steinmauer:
Bild
Science-Fiction-Stil und spüren Sie auch die Invasion der Erde durch Außerirdische:
Bild
AnimateLCM-SVD-xt von MMLab, The Chinese Universität Hongkong, gemeinsam vorgeschlagen von Forschern von Avolution AI, Shanghai Artificial Intelligence Laboratory und SenseTime Research Institute.
Bilder
Sie können hochwertige Animationen mit 25 Bildern und einer Auflösung von 576 x 1024 in 2 bis 8 Schritten generieren, und ohne Klassifikatorführung
kann das in 4 Schritten generierte Video eine hohe Wiedergabetreue erreichen, d. h besser als herkömmliches SVD Schneller und effizienter:Bilder
Derzeit ist der AnimateLCM-Code Open Source und es steht eine Online-Demo zum Testen zur Verfügung. Legen Sie los und probieren Sie die Demo ausWie Sie der Demo-Oberfläche entnehmen können, ist AnimateLCM-SVD-xt für die allgemeine Bild-zu-Video-Generierung vorgesehen; -i2v dient zur personalisierten Bild-zu-Video-Generierung.Bilder
Unten finden Sie einen Konfigurationsbereich, in dem Sie das grundlegende Dreambooth-Modell oder das LoRA-Modell auswählen und den LoRA-Alpha-Wert über den Schieberegler anpassen können.Bilder
Als nächstes können Sie Eingabeaufforderungen und negative Eingabeaufforderungen eingeben, um den Inhalt und die Qualität der generierten Animation zu steuern:Bilder
Es gibt auch einige Parameter, die angepasst werden können:Bilder
Fangen wir an. Nach dem Ausprobieren lautet das Eingabeaufforderungswort „Wolken am Himmel“, die Parametereinstellungen sind wie oben gezeigt und der Abtastschritt beträgt nur 4 Schritte, der erzeugte Effekt ist wie folgt:Bild
Der Sampling-Schritt beträgt 25 Schritte. Wenn Sie mit dem Wort „Ein Junge hält ein Kaninchen“ dazu aufgefordert werden, ist der Effekt wie folgt:Bilder
Schauen wir uns noch einmal die offiziellen Anzeigeeffekte an. Der Vergleich der Effekte von 2 Schritten, 4 Schritten und 8 Schritten ist wie folgt:Bilder
Je mehr Schritte, desto besser ist die Animationsqualität. Nur 4 Schritte können mit AnimateLCM eine hohe Wiedergabetreue erreichen:Bilder
jeder Alle Stile sind realisierbar:Bilder
🎜Bilder
Beachten Sie, dass Videodiffusionsmodelle aufgrund ihrer Fähigkeit, kohärente und hochauflösende Videos zu erzeugen, zwar zunehmend Beachtung finden, eine der Schwierigkeiten jedoch darin besteht, dass der iterative Entrauschungsprozess nicht nur zeitaufwändig, sondern auch rechenintensiv ist, was ihn einschränkt Geltungsbereich.
In dieser Arbeit AnimateLCM ließen sich die Forscher vom Konsistenzmodell (CM) inspirieren, das das vorab trainierte Bilddiffusionsmodell vereinfacht, um die für das Sampling erforderlichen Schritte zu reduzieren und erfolgreich auf das Latent Consistency Model (LCM) für die bedingte Bilderzeugung zu skalieren ) .
Bild
Konkret schlugen die Forscher eine Strategie des Entkoppelten Konsistenzlernens(Entkoppeltes Konsistenzlernen) vor.
Destillieren Sie zunächst das stabile Diffusionsmodell in ein Bildkonsistenzmodell für einen hochwertigen Bild-Text-Datensatz und führen Sie dann eine Konsistenzdestillation für Videodaten durch, um ein Videokonsistenzmodell zu erhalten. Diese Strategie verbessert die Trainingseffizienz durch getrenntes Training auf räumlicher und zeitlicher Ebene.
Bilder
Um verschiedene Funktionen von Plug-and-Play-Adaptern (z. B. Verwendung von ControlNet zur Erzielung einer steuerbaren Erzeugung) in der Stable Diffusion-Community zu implementieren, schlugen die Forscher außerdem Lehrer- vor Kostenlose Anpassung der Strategie (Lehrerfreie Anpassung), um den vorhandenen Steuerungsadapter konsistenter mit dem Konsistenzmodell zu machen und eine besser kontrollierbare Videogenerierung zu erreichen.
Bilder
Sowohl quantitative als auch qualitative Experimente belegen die Wirksamkeit der Methode.
Bei der Zero-Shot-Text-zu-Video-Generierung auf dem UCF-101-Datensatz erzielt AnimateLCM die beste Leistung sowohl bei FVD- als auch bei CLIPSIM-Metriken. „Bild“ imatelcm. github.io/
[2]https://huggingface.co/wangfuyun/AnimateLCM-SVD-xt
Das obige ist der detaillierte Inhalt vonErzeugen Sie in zwei Schritten 25 Frames hochwertiger Animationen, berechnet als 8 % der SVD | Online spielbar. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!