LeCun auf dem Mond? Nankai und Byte öffnen StoryDiffusion als Open-Source-Lösung, um mehrteilige Comics und lange Videos kohärenter zu machen-KI-php.cn

Vor zwei Tagen veröffentlichte der Turing-Award-Gewinner Yann LeCun den langen Comic „Go to the Moon and Explore Yourself“ erneut, der unter Internetnutzern heftige Diskussionen auslöste.

LeCun auf dem Mond? Nankai und Byte öffnen StoryDiffusion als Open-Source-Lösung, um mehrteilige Comics und lange Videos kohärenter zu machen

In der Arbeit „Story Diffusion: Consistent Self-Attention for long-range image and video generation“ schlug das Forschungsteam eine neue Methode namens Story Diffusion zur Erzeugung konsistenter Bilder und Videos zur Beschreibung komplexer Situationen vor. Die Forschung zu diesen Comics stammt von Institutionen wie der Nankai University und ByteDance. ?? GitHub hat einen Betrag von 1.000 Sternen erhalten.

LeCun auf dem Mond? Nankai und Byte öffnen StoryDiffusion als Open-Source-Lösung, um mehrteilige Comics und lange Videos kohärenter zu machen

GitHub-Adresse: https://github.com/HVision-NKU/StoryDiffusion
Laut der Projektdemonstration kann StoryDiffusion Comics verschiedener Stile generieren und eine zusammenhängende Geschichte erzählen, während die Charakterkonsistenz erhalten bleibt von Stil und Kleidung.

StoryDiffusion kann die Identität mehrerer Charaktere gleichzeitig aufrechterhalten und konsistente Charaktere über eine Reihe von Bildern hinweg generieren.

LeCun auf dem Mond? Nankai und Byte öffnen StoryDiffusion als Open-Source-Lösung, um mehrteilige Comics und lange Videos kohärenter zu machen

Darüber hinaus ist StoryDiffusion in der Lage, qualitativ hochwertige Videos zu generieren, die auf generierten konsistenten Bildern oder vom Benutzer eingegebenen Bildern basieren.

LeCun auf dem Mond? Nankai und Byte öffnen StoryDiffusion als Open-Source-Lösung, um mehrteilige Comics und lange Videos kohärenter zu machen

Wir wissen, dass die Aufrechterhaltung der Inhaltskonsistenz über eine Reihe generierter Bilder hinweg, insbesondere solche mit komplexen Themen und Details, eine erhebliche Herausforderung für diffusionsbasierte generative Modelle darstellt.

LeCun auf dem Mond? Nankai und Byte öffnen StoryDiffusion als Open-Source-Lösung, um mehrteilige Comics und lange Videos kohärenter zu machen Daher schlug das Forschungsteam eine neue Methode zur Berechnung der Selbstaufmerksamkeit vor, die als konsistente Selbstaufmerksamkeit bezeichnet wird, indem bei der Generierung von Bildern Verbindungen zwischen Bildern innerhalb eines Stapels hergestellt werden, um die Charaktere konsistent zu halten und thematisch konsistente Bilder ohne Schulung zu generieren.

Um diese Methode auf die Generierung langer Videos auszudehnen, führte das Forschungsteam einen semantischen Bewegungsprädiktor (Semantic Motion Predictor) ein, der Bilder in den semantischen Raum kodiert und Bewegungen im semantischen Raum vorhersagt, um Videos zu generieren. Dies ist stabiler als eine Bewegungsvorhersage, die nur auf dem latenten Raum basiert.

LeCun auf dem Mond? Nankai und Byte öffnen StoryDiffusion als Open-Source-Lösung, um mehrteilige Comics und lange Videos kohärenter zu machen

Führen Sie dann eine Framework-Integration durch und kombinieren Sie konsistente Selbstaufmerksamkeit und semantische Bewegungsprädiktoren, um konsistente Videos zu generieren und komplexe Geschichten zu erzählen. StoryDiffusion kann flüssigere und kohärentere Videos erzeugen als bestehende Methoden.

LeCun auf dem Mond? Nankai und Byte öffnen StoryDiffusion als Open-Source-Lösung, um mehrteilige Comics und lange Videos kohärenter zu machen

Abbildung 1: Von der StroyDiffusion des Teams generierte Bilder und Videos

Übersicht über die Methode

Die Methode des Forschungsteams kann in zwei Phasen unterteilt werden, wie in den Abbildungen 2 und 3 dargestellt.

In der ersten Stufe nutzt StoryDiffusion Consistent Self-Attention, um themenkonsistente Bilder auf schulungsfreie Weise zu generieren. Diese konsistenten Bilder können direkt beim Storytelling oder als Input für eine zweite Stufe verwendet werden. Im zweiten Schritt erstellt StoryDiffusion konsistente Übergangsvideos auf Basis dieser konsistenten Bilder.

LeCun auf dem Mond? Nankai und Byte öffnen StoryDiffusion als Open-Source-Lösung, um mehrteilige Comics und lange Videos kohärenter zu machen

Abbildung 2: StoryDiffusion-Prozessübersicht zur Generierung themenkonsistenter Bilder

LeCun auf dem Mond? Nankai und Byte öffnen StoryDiffusion als Open-Source-Lösung, um mehrteilige Comics und lange Videos kohärenter zu machen Abbildung 3: Methode zur Generierung von Übergangsvideos, um themenkonsistente Bilder zu erhalten.

Konsistente Bildgenerierung ohne Schulung

Das Forschungsteam führte die Methode ein, „wie man ohne Schulung konsistente Bilder mit einem Thema generiert“. Der Schlüssel zur Lösung des oben genannten Problems besteht darin, die Konsistenz der Zeichen in einem Bildstapel aufrechtzuerhalten. Das bedeutet, dass sie während des Generierungsprozesses Verbindungen zwischen einem Stapel von Bildern herstellen müssen.

Nachdem sie die Rolle verschiedener Aufmerksamkeitsmechanismen im Diffusionsmodell erneut untersucht hatten, wurden sie inspiriert, die Verwendung von Selbstaufmerksamkeit zu untersuchen, um die Konsistenz von Bildern innerhalb einer Reihe von Bildern aufrechtzuerhalten, und schlugen Konsistente Selbstaufmerksamkeit – Aufmerksamkeit vor ).

Das Forschungsteam fügt konsistente Selbstaufmerksamkeit in die ursprüngliche Selbstaufmerksamkeitsposition in der U-Net-Architektur des vorhandenen Bildgenerierungsmodells ein und verwendet die ursprünglichen Selbstaufmerksamkeitsgewichte wieder, um kein Training und Plug-and-Play beizubehalten Verwendete Funktionen.

Anhand gepaarter Token führt die Methode des Forschungsteams Selbstaufmerksamkeit auf eine Reihe von Bildern aus und fördert so Interaktionen zwischen verschiedenen Bildmerkmalen. Diese Art der Interaktion fördert die Konvergenz des Modells in Bezug auf Charaktere, Gesichter und Kleidung während der Generierung. Obwohl die Methode der konsistenten Selbstaufmerksamkeit einfach ist und keine Schulung erfordert, kann sie effektiv thematisch konsistente Bilder erzeugen.

Zur besseren Veranschaulichung zeigt das Forschungsteam den Pseudocode in Algorithmus 1.

LeCun auf dem Mond? Nankai und Byte öffnen StoryDiffusion als Open-Source-Lösung, um mehrteilige Comics und lange Videos kohärenter zu machen

Semantic Motion Predictor für die Videogenerierung

Das Forschungsteam schlug den Semantic Motion Predictor (Semantic Motion Predictor) vor, der Bilder in den semantischen Bildraum kodiert, um räumliche Informationen zu erfassen. Dies ermöglicht eine genauere Bewegung Vorhersage aus einem gegebenen Start-Frame und End-Frame.

Genauer gesagt verwenden sie in dem vom Team vorgeschlagenen semantischen Bewegungsprädiktor zunächst eine Funktion E, um eine Zuordnung von RGB-Bildern zu bildsemantischen Raumvektoren zu erstellen, um räumliche Informationen zu kodieren.

Das Team verwendete die lineare Ebene nicht direkt als Funktion E. Stattdessen verwendete es einen vortrainierten CLIP-Bildencoder als Funktion E, um seine Zero-Shot-Fähigkeit zur Verbesserung der Leistung zu nutzen.

Mit der Funktion E werden der gegebene Startrahmen F_s und der Endrahmen F_e in bildsemantische Raumvektoren K_s und K_e komprimiert.

LeCun auf dem Mond? Nankai und Byte öffnen StoryDiffusion als Open-Source-Lösung, um mehrteilige Comics und lange Videos kohärenter zu machen

Experimentelle Ergebnisse

Da die Methode des Teams keine Schulung erfordert und Plug-and-Play-fähig ist, verwendeten sie zwei Versionen von Stable Diffusion XL und Stable Diffusion 1.5 All, um themenkonsistente Bilder zu erstellen habe diese Methode implementiert. Um mit den verglichenen Modellen übereinzustimmen, verwendeten sie zum Vergleich dieselben vorab trainierten Gewichte für das Stable-XL-Modell.

Um konsistente Videos zu generieren, implementierten die Forscher ihre Forschungsmethode basierend auf dem Spezialmodell Stable Diffusion 1.5 und integrierten ein vorab trainiertes zeitliches Modul zur Unterstützung der Videogenerierung. Alle verglichenen Modelle verwenden einen klassifikatorfreien Guidance-Score von 7,5 und eine 50-stufige DDIM-Stichprobe.

Vergleich konsistenter Bilderzeugung

Das Team bewertete seinen Ansatz zur Erzeugung themenkonsistenter Bilder, indem es ihn mit zwei hochmodernen Methoden zur ID-Erhaltung verglich – IP-Adapter und Photo Maker.

Um die Leistung zu testen, generierten sie mithilfe von GPT-4 zwanzig Rollenanweisungen und einhundert Aktivitätsanweisungen zur Beschreibung spezifischer Aktivitäten.

Qualitative Ergebnisse sind in Abbildung 4 dargestellt: „StoryDiffusion ist in der Lage, hochkonsistente Bilder zu erzeugen. Während andere Methoden, wie IP-Adapter und PhotoMaker, möglicherweise Bilder mit inkonsistenter Kleidung oder eingeschränkter Textsteuerbarkeit erzeugen.“

LeCun auf dem Mond? Nankai und Byte öffnen StoryDiffusion als Open-Source-Lösung, um mehrteilige Comics und lange Videos kohärenter zu machen

Abbildung 4: Vergleich der konsistenten Bilderzeugung mit aktuellen Methoden

Die Ergebnisse des quantitativen Vergleichs zeigen die Forscher in Tabelle 1. Die Ergebnisse zeigen: „StoryDiffusion des Teams erzielte bei beiden quantitativen Metriken die beste Leistung, was darauf hindeutet, dass die Methode gut zur Beschreibung der Eingabeaufforderung passt und gleichzeitig die Charaktereigenschaften beibehält, und zeigt ihre Robustheit.“ konsistente Bildgenerierung

LeCun auf dem Mond? Nankai und Byte öffnen StoryDiffusion als Open-Source-Lösung, um mehrteilige Comics und lange Videos kohärenter zu machen Vergleich der Übergangsvideogenerierung

Im Hinblick auf die Übergangsvideogenerierung verglich das Forschungsteam zwei hochmoderne Methoden – SparseCtrl und SEINE – Es wurden Vergleiche angestellt, um die Leistung zu bewerten.

Sie führten einen qualitativen Vergleich der Übergangsvideogenerierung durch und zeigten die Ergebnisse in Abbildung 5. Die Ergebnisse zeigen: „Die StoryDiffusion des Teams ist deutlich besser als SEINE und SparseCtrl, und das generierte Übergangsvideo ist sowohl reibungslos als auch im Einklang mit physikalischen Prinzipien.“ -Art-Methoden Vergleich der Videogenerierung

Sie verglichen diese Methode auch mit SEINE und SparseCtrl und verwendeten vier quantitative Indikatoren, darunter LPIPSfirst, LPIPS-Frames, CLIPSIM-first und CLIPSIM-Frames, wie in Tabelle 2 gezeigt.

LeCun auf dem Mond? Nankai und Byte öffnen StoryDiffusion als Open-Source-Lösung, um mehrteilige Comics und lange Videos kohärenter zu machen Tabelle 2: Quantitativer Vergleich mit dem aktuellen, hochmodernen Übergangsvideo-Generierungsmodell

Weitere technische und experimentelle Details finden Sie im Originalpapier.

Das obige ist der detaillierte Inhalt vonLeCun auf dem Mond? Nankai und Byte öffnen StoryDiffusion als Open-Source-Lösung, um mehrteilige Comics und lange Videos kohärenter zu machen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!