Zusätzlich zu den vielbeachteten groß angelegten Sprachmodellen, die weiterhin die Schlagzeilen dominieren, hat auch die Videogenerierungstechnologie weiterhin große Durchbrüche erzielt. Viele Unternehmen haben nacheinander neue Modelle herausgebracht.
Zuallererst: Runway ist das erste Unternehmen, das den Bereich der Videoerzeugung erkundet und sein Gen-2-Modell aktualisiert hat, um eine filmische High-Definition zu bieten, die ins Auge fällt. Gleichzeitig wurde auch die Konsistenz der Videogenerierung deutlich verbessert
Allerdings scheint diese Verbesserung der Konsistenz auf Kosten der Videodynamik zu gehen. Aus dem offiziellen Werbevideo von Gen-2 geht hervor, dass zwar mehrere kurze Clips zusammengestellt werden, die Dynamik jedes Clips jedoch relativ schwach ist, was es schwierig macht, klare Aktionen und Bewegungen von Charakteren, Tieren oder Objekten einzufangen.
Vor kurzem hat Meta auch das Videogenerierungsmodell Emu Video veröffentlicht. Wie aus den offiziellen Beispielen von Emu Video hervorgeht, ist die Dynamik seiner Videos im Vergleich zu Gen-2 deutlich verbessert, sie beschränken sich jedoch immer noch auf einfachere Aktionen.
Stability.ai, das Unternehmen, das das klassische Vincent-Graphmodell Stable Diffusion entwickelt hat, hat kürzlich auch das Open-Source-Videogenerierungsmodell Stable Video Diffusion (SVD) veröffentlicht, das viel Aufmerksamkeit und Diskussion auf sich gezogen hat Open-Source-Community. Der Effekt von SVD ist vergleichbar mit dem von Gen-2. Aus dem Testbeispiel ist ersichtlich, dass es dem von SVD erzeugten Video relativ an Dynamik mangelt.
weist im SVD-Papier darauf hin, dass das aktuelle von SVD generierte Video eine unzureichende Dynamik aufweist bewegt, es ist derzeit die größte Herausforderung im Bereich der Videogenerierung.
In dieser Hinsicht haben die neuesten Forschungsergebnisse PixelDance einen entscheidenden Schritt gemacht. Die Dynamik der generierten Ergebnisse ist deutlich besser als bei anderen bestehenden Modellen, was die Aufmerksamkeit der Branche auf sich gezogen hat.
Die vom berühmten KI-Blogger @_akhaliq auf Twitter weitergeleiteten PixelDance-Nachrichten haben auf der offiziellen Website (https://pixel.com) fast 80.000 Aufrufe erhalten macht Tanz .io) bietet PixelDance zwei verschiedene Videogenerierungsmodi.
Es stehen zwei Modi zur Auswahl, der erste ist der Basismodus. In diesem Modus müssen Benutzer lediglich ein Leitbild und eine Textbeschreibung bereitstellen, und PixelDance kann ein äußerst konsistentes und dynamisches Video generieren. Das Führungsbild kann ein echtes Foto sein oder durch ein vorhandenes textgeneriertes Bildmodell generiert werden. Den angezeigten Ergebnissen nach zu urteilen, kann PixelDance alle Probleme im echten Stil, im Animationsstil, im zweidimensionalen Stil und im magischen Stil lösen ., Charakterbewegungen, Gesichtsausdrücke, Kameraperspektivensteuerung, Spezialeffektbewegungen, Pixeldance können ebenfalls sehr gut ausgeführt werden. Ich kann nur sagen: TQL!
Der zweite ist der erweiterte Magic-Modus, der den Benutzern mehr Raum gibt, ihrer Fantasie und Kreativität freien Lauf zu lassen. In diesem Modus müssen Benutzer zwei Leitbilder und eine Textbeschreibung bereitstellen, wodurch schwierigere Videoinhalte besser generiert werden können. Die Website zeigt verschiedene coole Spezialeffektaufnahmen, die mit dem Magic-Modus erstellt wurden.
Darüber hinaus zeigt die offizielle Website auch einen 3-minütigen Kurzgeschichtenfilm, der vollständig mit PixelDance produziert wurde
Das Erstaunlichste ist, dass mit PixelDance jede Szene und die entsprechende Aktion entsprechend einer vom Benutzer vorgestellten Geschichte erstellt werden kann. Ganz gleich, ob es sich um eine reale Szene (z. B. Ägypten, die Chinesische Mauer usw.) oder eine imaginäre Szene (z. B. einen außerirdischen Planeten) handelt, PixelDance kann Videos mit vielen Details und Action erzeugen, sogar Aufnahmen mit verschiedenen Spezialeffekten.
Der schwarze Zylinder und die rote Fliege des Protagonisten Mr. Polar Bear sind in verschiedenen Szenen gut erhalten. Jetzt geht es bei der Erstellung langer Videos nicht mehr darum, einfach irrelevante kurze Videoclips zusammenzusetzen!
Um einen solch herausragenden Videogenerierungseffekt zu erzielen, ist es nicht auf komplexe Datensätze und umfangreiches Modelltraining angewiesen, um den oben genannten Effekt zu erzielen. .
Papieradresse: https://arxiv.org/abs/2311.10982
Schreiben Sie den Inhalt neu, ohne die ursprüngliche Bedeutung zu ändern, und schreiben Sie ihn ins Chinesische um: Bitte besuchen Sie die folgende Website, um die Demo zu erhalten: https ://makepixelsdance.github.io
In dem entsprechenden Artikel „Make Pixels Dance: High-Dynamic Video Generation“ wies der Autor darauf hin, warum es bei der Videogenerierung schwierig ist, gute Ergebnisse zu erzielen: im Vergleich zur Bildgenerierung, Video Generation verfügt über einen deutlich größeren Funktionsumfang, eine deutlich größere Aktionsvielfalt. Dies macht es für bestehende Videogenerierungsmethoden schwierig, effektive Zeitbereichsaktionsinformationen zu lernen. Obwohl die generierten Videos eine hohe Bildqualität aufweisen, ist ihre Dynamik sehr begrenzt.
Als Reaktion auf die oben genannten Probleme schlägt PixelDance eine Methode zur Videogenerierung vor, die auf Textführung + Bildführung für das erste und letzte Bild basiert, damit das Modell den dynamischen Informationen des Videos besser Aufmerksamkeit schenken und sie lernen kann.
Bei der Videogenerierung liefert das erste Einzelbild den Rahmen und das Material für den gesamten Videoinhalt. Gleichzeitig können längere Videos erstellt werden, indem das letzte Bild des vorherigen Videoclips als Leitfaden für das erste Bild des nächsten Clips verwendet wird. Die Videotextbeschreibung beschreibt den konkreten Inhalt der Videoaktion. Die letzte Bildführung liefert Endstatusinformationen für den Videogenerierungsprozess. Der Autor schlägt eine Anpassungsmethode vor, die es dem Modell ermöglicht, relativ grobe Bilder als Anleitung zu akzeptieren, sodass Benutzer grundlegende Bildbearbeitungswerkzeuge verwenden können, um eine Endbild-Bildführung zu erhalten
Die Informationsanzeige auf der offiziellen Website ist während der Iteration noch aktiv Mit den Modelleffekten wird in den nächsten 2-3 Monaten ein Modell veröffentlicht, das jeder ausprobieren kann. Derzeit bietet der Autor auch eine Möglichkeit, allen zu helfen, Muster zu senden, die sie testen möchten. Derzeit wurden einige Benutzertestbeispiele auf der offiziellen Website veröffentlicht:
Es scheint, dass dies bei PixelDance der Fall ist Da Sie eine wilde Fantasie haben, kann jeder mit Kraft ein „Millionen-Dollar-Spezialeffektmeister“ werden!
Das obige ist der detaillierte Inhalt vonEin neuer Durchbruch in der Videogenerierung: PixelDance, das komplexe Bewegungen und coole Spezialeffekte einfach präsentiert. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!