Mit einem Satz kann der Hulk eine VR-Brille aufsetzen.
4K-Qualität.
Panda’s Life of Fantasy~
Dies ist Bytes neuestes KI-Videogenerationsmodell MagicVideo-V2, mit dem alle möglichen fantastischen Ideen verwirklicht werden können. Es unterstützt nicht nur die ultrahohen Auflösungen 4K und 8K, sondern kann auch problemlos verschiedene Zeichenstile unterstützen.
Der Bewertungseffekt übertrifft Gen-2, Pika und vorhandene Tools zur KI-Videogenerierung.
Dadurch erregte er innerhalb von 24 Stunden, nachdem er online ging, große Aufmerksamkeit. Beispielsweise hatte ein Tweet fast 200.000 Aufrufe.
Viele Internetnutzer waren von der Wirkung überrascht und sagten sogar unverblümt: Es ist besser als Runway und Pika.
Die Forscher führten tatsächliche Wirkungsvergleiche durch. Die Teilnehmer sind: MagicVideo-V2, SVD-XT von StabilityAI, der neue potenzielle Spieler Pika1.0 und Gen-2 von Runway.
Runde 1: Licht- und Schatteneffekte.
Wenn die Sonne untergeht, spaziert der Reisende allein durch den nebligen Wald.
(von links nach rechts: MagicVideo-V2, SVD-XT, oben rechts Pika, unten rechts Gen-2, das Gleiche unten)
Sie können sehen, dass MagicVideo-V2, Gen-2 und Pika hat offensichtlich Licht und Schatten. Allerdings ist Pika nicht unbedingt etwas für Reisende, da MagicVideo-V2 über sattere Töne verfügt.
Runde 2: Ausdruck der Situationshandlung.
Eine Sitcom aus den 1910er Jahren, die das tägliche Leben und triviale Dinge in der Gesellschaft erzählt
Diese Runde sind MagicVideo-V2 und Gen-2 offensichtlich besser. Obwohl die vom SVD-XT präsentierte Mittelklassekomposition dem Alter entspricht, ist sie nicht ausdrucksstark genug.
Runde 3: Realistisch.
Der kleine Junge fuhr mit dem Fahrrad auf dem Weg im Park und die Räder machten ein knirschendes Geräusch auf dem Kies.
Diesmal ist der Kontrast noch deutlicher. MagicVideo-V2 und SVD-XT geben die Bedeutung des Satzes vollständig wieder, MagicVideo-V2 kann jedoch die Details der sich deutlich bewegenden Füße des Kindes erkennen.
Darüber hinaus führten die Forscher auch persönliche Einzelbewertungen von MagicVideo-V2 im Vergleich zu modernsten Methoden durch.
Die Ergebnisse zeigen, dass die Leute denken, dass MagicVideo-V2 im Vergleich zu anderen Methoden besser funktioniert.
(Die grünen, grauen und rosa Balken stellen die experimentellen Ergebnisse dar, bei denen MagicVideo-V2 jeweils als besser, gleichwertig oder schlechter bewertet wird.)
Einfach ausgedrückt ist MagicVideo-V2 eine Videogenerierungspipeline, die ein Text-zu-Bild-Modell, einen Videobewegungsgenerator, ein Referenzbild-Einbettungsmodul und ein Interpolationsmodul integriert.
Zuerst generiert das T2I-Modul zunächst ein 1024×1024-Bild basierend auf dem Text, dann animiert das I2V-Modul das statische Bild, um eine 600×600×32-Frame-Sequenz zu generieren, und verwendet dann das V2V-Modul zur Verbesserung und Verbessern Sie den Videoinhalt und verwenden Sie schließlich das Interpolationsmodul, um die Sequenz auf 94 Bilder zu erweitern.
Auf diese Weise werden hohe Wiedergabetreue und zeitliche Kontinuität gewährleistet.
Aber bereits im November 2022 brachte Byte die MagicVideo V1-Version auf den Markt.
Allerdings wurde damals mehr Wert auf Effizienz gelegt, wodurch Videos mit einer Auflösung von 256 x 256 auf einer einzigen GPU-Karte generiert werden konnten.
Referenzlink:
https://twitter.com/arankomatsuzaki/status/1744918551415443768?s=20
Projektlink:
https://magicvideov2.github.io/
Papierlink :
https://arxiv.org/abs/2401.04468
https://arxiv.org/abs/2211.11018
Das obige ist der detaillierte Inhalt vonDas Videogenerierungsmodell der neuen Generation von Byte macht den Effekt, dass Hulk eine VR-Brille trägt, besser als Gen-2!. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!