Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

WBOY
Freigeben: 2024-04-25 14:55:14
nach vorne
937 Leute haben es durchsucht

Open-Sora wurde in der Open-Source-Community stillschweigend aktualisiert. Es unterstützt jetzt die Videogenerierung bis zu 16 Sekunden mit Auflösungen bis zu 720p und kann jedes Seitenverhältnis von Text zu Bild, Text zu Video, Bild zu Video verarbeiten , Video-zu-Video und Videogenerierung in unendlicher Länge erforderlich. Probieren wir es aus.

Erstellen Sie eine horizontale Bildschirm-Weihnachtsschneeszene, posten Sie sie auf der B-Site

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

und erstellen Sie dann einen vertikalen Bildschirm, twittern Sie

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

und erstellen Sie auch ein 16 Sekunden langes Video, jetzt alle Kann man spielen, wenn man süchtig nach Drehbuchschreiben ist? Anleitung: GitHub: https://github.com/hpcaitech/Open-Sora und mehr Der Trainingsprozess von Zeit/Auflösung/Seitenverhältnis/Bildrate, der komplette Prozess der Datenerfassung und Vorverarbeitung, alle Trainingsdetails, Demo-Beispiele und

detailliertes Tutorial für den Einstieg

.

Umfassende Interpretation des technischen Berichts von Open-Sora

Übersicht über die neuesten FunktionenDas Autorenteam hat den technischen Bericht von Open-Sora [1] nach dem Verständnis des Autors offiziell veröffentlicht Dieses Update umfasst hauptsächlich die folgenden Hauptfunktionen:

Unterstützt die Generierung langer Videos;

Videogenerierung mit einer Auflösung von bis zu 720p;

Einzelnes Modell unterstützt Text in jedem Seitenverhältnis, verschiedenen Auflösungen und Dauern. Bild-, Text-zu-Video-, Bild-zu-Video-, Video-zu-Video- und Videogenerierungsanforderungen mit unendlicher Länge

  • Schlägt ein stabileres Modellarchitekturdesign vor, das Multizeit-/Auflösungs-/Seitenverhältnis-/Bildratentraining unterstützt;
  • Der neueste automatische Datenverarbeitungsprozess ist Open Source.
  • Raum-Zeit-Diffusionsmodell ST-DiT-2
  • Das Autorenteam gab an, dass es in Open-Sora 1.0 wichtige Verbesserungen an der STDiT-Architektur vorgenommen hat, mit dem Ziel, die Trainingsstabilität und die Gesamtleistung zu verbessern des Modells. Für die aktuelle Sequenzvorhersageaufgabe übernahm das Team die Best Practices großer Sprachmodelle (LLM) und ersetzte die sinusförmige Positionskodierung in der zeitlichen Aufmerksamkeit durch die effizientere Rotationspositionskodierung (RoPE-Einbettung). Um die Stabilität des Trainings zu verbessern, verwiesen sie außerdem auf die SD3-Modellarchitektur und führten außerdem die QK-Normalisierungstechnologie ein, um die Stabilität des Trainings mit halber Präzision zu verbessern. Um die Trainingsanforderungen mehrerer Auflösungen, unterschiedlicher Seitenverhältnisse und Bildraten zu unterstützen, kann die vom Autorenteam vorgeschlagene ST-DiT-2-Architektur die Positionskodierung automatisch skalieren und Eingaben unterschiedlicher Größe verarbeiten.
Mehrstufiges Training

Laut dem technischen Bericht von Open-Sora wendet Open-Sora eine mehrstufige Trainingsmethode an, und jede Stufe setzt das Training basierend auf dem Gewicht der vorherigen Stufe fort. Im Vergleich zum einstufigen Training erreicht dieses mehrstufige Training das Ziel einer qualitativ hochwertigen Videogenerierung effizienter, indem die Daten Schritt für Schritt eingeführt werden.

In der Anfangsphase verwenden die meisten Videos eine Auflösung von 144p und werden für das Training mit Bildern und 240p-, 480p-Videos gemischt. Das Training dauert etwa 1 Woche, mit einer Gesamtschrittgröße von 81k. In der zweiten Stufe wird die Auflösung der meisten Videodaten auf 240p und 480p erhöht, die Trainingszeit beträgt 1 Tag und die Schrittgröße erreicht 22k. Die dritte Stufe wurde weiter auf 480p und 720p verbessert, die Trainingsdauer betrug 1 Tag und das Training der 4k-Schritte wurde abgeschlossen. Der gesamte mehrstufige Trainingsprozess wurde in etwa 9 Tagen abgeschlossen. Im Vergleich zu Open-Sora 1.0 wurde die Qualität der Videogenerierung in mehreren Dimensionen verbessert.

Einheitliches Bild-zu-Video/Video-zu-Video-Framework

Das Autorenteam erklärte, dass die DiT-Architektur basierend auf den Eigenschaften von Transformer leicht erweitert werden kann, um Bild-zu-Bild und zu unterstützen Video-zu-Video-Aufgaben. Sie schlugen eine Maskierungsstrategie vor, um die bedingte Verarbeitung von Bildern und Videos zu unterstützen. Durch das Festlegen verschiedener Masken können verschiedene Generierungsaufgaben unterstützt werden, darunter: Grafikvideo, Loop-Video, Videoerweiterung, autoregressive Videogenerierung, Videoverbindung, Videobearbeitung, Frame-Einfügung usw.

Unterstützt Maskierungsstrategie für die bedingte Bild- und Videoverarbeitung

Das Autorenteam gab an, dass sie, inspiriert von der UL2[2]-Methode, in der Modelltrainingsphase eine zufällige Maskierungsstrategie eingeführt haben. Insbesondere werden die maskierten Frames während des Trainingsprozesses auf zufällige Weise ausgewählt und demaskiert, einschließlich, aber nicht beschränkt auf, Demaskierung des ersten Frames, der ersten k Frames, der nächsten k Frames, aller k Frames usw. Die Autoren haben uns auch gezeigt, dass das Modell basierend auf Experimenten mit Open-Sora 1.0 bei Anwendung der Maskierungsstrategie mit einer Wahrscheinlichkeit von 50 % mit nur wenigen Schritten besser lernen kann, mit der Bildkonditionierung umzugehen. In der neuesten Version von Open-Sora haben sie eine Methode des Vortrainings von Grund auf mithilfe einer Maskierungsstrategie übernommen.

Darüber hinaus stellt das Autorenteam sorgfältig eine detaillierte Anleitung zur Konfiguration der Maskierungsstrategie für die Inferenzphase zur Verfügung. Die Tupelform aus fünf Zahlen bietet große Flexibilität und Kontrolle bei der Definition der Maskierungsstrategie.

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Anweisungen zur Konfiguration der Maskenrichtlinie

Unterstützt Multizeit-/Auflösungs-/Seitenverhältnis-/Bildratentraining

Der technische Bericht von OpenAI Sora [3] wies darauf hin, dass die Verwendung des Originalvideos Training mit Auflösung, Seitenverhältnis und Länge können die Sampling-Flexibilität erhöhen und Bildausschnitt und Komposition verbessern. In diesem Zusammenhang schlug das Autorenteam eine Bucketing-Strategie vor.

Wie setzt man es konkret um? Durch eingehende Lektüre des vom Autor veröffentlichten technischen Berichts haben wir erfahren, dass der sogenannte Bucket ein Triplett aus (Auflösung, Anzahl der Bilder, Seitenverhältnis) ist. Das Team hat eine Reihe von Seitenverhältnissen für Videos mit unterschiedlichen Auflösungen vordefiniert, um die gängigsten Arten von Video-Seitenverhältnissen abzudecken. Vor Beginn jeder Trainingszyklus-Epoche mischen sie den Datensatz neu und weisen die Proben basierend auf ihren Eigenschaften den entsprechenden Buckets zu. Konkret legen sie jedes Sample in einen Bucket, dessen Auflösung und Bildlänge kleiner oder gleich dieser Videofunktion sind.

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Open-Sora-Bucketing-Strategie

Das Autorenteam gab außerdem bekannt, dass es zur Reduzierung der Anforderungen an Rechenressourcen zwei Attribute (Auflösung, Anzahl der Frames) für jeweils keep_prob und batch_size zur Reduzierung eingeführt hat Kosten kalkulieren und mehrstufige Schulungen umsetzen. Auf diese Weise können sie die Anzahl der Proben in verschiedenen Buckets steuern und die GPU-Last ausgleichen, indem sie für jeden Bucket nach einer guten Batchgröße suchen. Der Autor erläutert dies im technischen Bericht. Interessierte Freunde können den vom Autor auf GitHub veröffentlichten technischen Bericht lesen, um weitere Informationen zu erhalten: https://github.com/hpcaitech/Open-Sora

Datenerfassung und -vorbereitung -Verarbeitungsprozess

Das Autorenteam bietet sogar detaillierte Anleitungen zur Datenerhebung und -verarbeitung. Laut der Erklärung des Autors im technischen Bericht wurde während des Entwicklungsprozesses von Open-Sora 1.0 erkannt, dass die Quantität und Qualität der Daten für die Entwicklung eines Hochleistungsmodells äußerst wichtig sind, und hat sich daher der Erweiterung und Optimierung des Datensatzes verschrieben . Sie etablierten einen automatisierten Datenverarbeitungsprozess, der dem Singular Value Decomposition (SVD)-Prinzip folgt und Szenensegmentierung, Untertitelverarbeitung, Diversitätsbewertung und -filterung sowie das Verwaltungssystem und die Spezifikation des Datensatzes umfasst. Ebenso selbstlos geben sie Skripte zur Datenverarbeitung an die Open-Source-Community weiter. Interessierte Entwickler können diese Ressourcen nun in Kombination mit technischen Berichten und Code nutzen, um ihre eigenen Datensätze effizient zu verarbeiten und zu optimieren.

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Open-Sora-Datenverarbeitungsprozess

Umfassende Bewertung der Open-Sora-Leistung

Videogenerierungseffektanzeige

Das auffälligste Highlight von Open-Sora ist das Es kann die Szene in Ihrem Kopf erfassen und durch Textbeschreibung in ein bewegendes Video umwandeln. Die Bilder und Vorstellungen, die mir durch den Kopf gingen, können nun dauerhaft aufgezeichnet und mit anderen geteilt werden. Hier hat der Autor als Ausgangspunkt verschiedene Eingabeaufforderungen ausprobiert.

Zum Beispiel hat der Autor versucht, ein Video vom Besuch eines Winterwaldes zu erstellen. Nicht lange nachdem der Schnee gefallen war, waren die Kiefern mit weißem Schnee bedeckt und weiße Schneeflocken waren in klaren Schichten verstreut.

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Oder Sie befinden sich in einer ruhigen Nacht in einem dunklen Wald, wie er in unzähligen Märchen beschrieben wird, und der tiefe See funkelt unter den hellen Sternen am ganzen Himmel.

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Der nächtliche Blick auf die geschäftige Insel aus der Luft ist noch schöner. Die warmen gelben Lichter und das bandartige blaue Wasser entführen die Menschen in die entspannte Zeit des Urlaubs.

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Der geschäftige Verkehr in der Stadt, die Hochhäuser und Straßenläden, deren Lichter bis spät in die Nacht noch brennen, haben ein anderes Flair.

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Neben der Landschaft kann Open-Sora auch verschiedene natürliche Lebewesen wiederherstellen. Ob es eine leuchtend rote Blume ist,

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

oder ein Chamäleon, das langsam den Kopf dreht, Open-Sora kann realistischere Videos erzeugen.

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Der Autor hat auch verschiedene Schnelltests ausprobiert und viele generierte Videos als Referenz bereitgestellt, darunter unterschiedliche Inhalte, unterschiedliche Auflösungen, unterschiedliche Seitenverhältnisse und unterschiedliche Dauern.

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Der Autor stellte außerdem fest, dass Open-Sora mit nur einem einfachen Befehl Videoclips mit mehreren Auflösungen generieren kann, wodurch die kreativen Einschränkungen vollständig durchbrochen werden.

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Auflösung: 16*240p

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Auflösung: 32*240p

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Auflösung: 64*360p

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Auflösung: 480 *854p

Wir können Open-Sora auch ein statisches Bild füttern, um ein kurzes Video zu erstellen

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Open-Sora kann auch zwei statische Bilder geschickt verbinden, um das wechselnde Licht und den Schatten vom Nachmittag bis zur Abenddämmerung zu erleben.

Ein weiteres Beispiel: Wenn wir das Originalvideo bearbeiten möchten, führt der ursprünglich helle Wald mit nur einem einfachen Befehl zu starkem Schneefall.

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Wir können Open-Sora auch verwenden, um hochauflösende Bilder zu generieren

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Umfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung

Das ist erwähnenswert Open-Sora-Modellgewichte sind bereits vorhanden völlig kostenlos. Es ist öffentlich in der Open-Source-Community, Sie können es also genauso gut herunterladen und ausprobieren. Da sie auch die Video-Splicing-Funktion unterstützen, haben Sie die Möglichkeit, kostenlos eine kurze Kurzgeschichte mit einer Geschichte zu erstellen, um Ihre Kreativität in die Realität umzusetzen.

Gewicht-Download-Adresse: https://github.com/hpcaitech/Open-Sora

Aktuelle Einschränkungen und Zukunftspläne

Obwohl gute Ergebnisse bei der Reproduktion Sora-ähnlicher Vincent-Videomodelle erzielt wurden, hat Fortschritte gemacht wurden erstellt, das Autorenteam weist jedoch auch bescheiden darauf hin, dass die derzeit generierten Videos in vielerlei Hinsicht noch verbessert werden müssen: einschließlich Rauschproblemen während des Generierungsprozesses, mangelnder zeitlicher Konsistenz, schlechter Qualität der Charaktergenerierung und niedrigen ästhetischen Werten. In Bezug auf diese Herausforderungen erklärte das Autorenteam, dass es der Lösung bei der Entwicklung der nächsten Version Priorität einräumen werde, um höhere Standards bei der Videogenerierung zu erreichen. Interessierte Freunde möchten möglicherweise weiterhin aufmerksam sein. Wir freuen uns auf die nächste Überraschung, die uns die Open-Sora-Community bringt.

Open-Source-Adresse: https://github.com/hpcaitech/Open-Sora

Das obige ist der detaillierte Inhalt vonUmfassendes Open-Source-Upgrade von Open-Sora: Unterstützt 16s-Videogenerierung und 720p-Auflösung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:51cto.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage
Über uns Haftungsausschluss Sitemap
Chinesische PHP-Website:Online-PHP-Schulung für das Gemeinwohl,Helfen Sie PHP-Lernenden, sich schnell weiterzuentwickeln!