Die weltweit erste Sora-ähnliche Open-Source-Reproduktionslösung ist da! Vollständige Offenlegung aller Trainingsdetails und Modellgewichte-KI-php.cn

Inhaltsverzeichnis

Umfassende Interpretation der Sora-Replikationslösung

Modellarchitekturdesign

Trainingsreproduktionsplan

Die erste Stufe ist das groß angelegte Bild-Vortraining.

Die zweite Stufe ist ein groß angelegtes Video-Vortraining.

Die dritte Stufe ist die Feinabstimmung hochwertiger Videodaten.

Datenvorverarbeitung

Effiziente Trainingsunterstützung

Heim

Technologie-Peripheriegeräte

Die weltweit erste Sora-ähnliche Open-Source-Reproduktionslösung ist da! Vollständige Offenlegung aller Trainingsdetails und Modellgewichte

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 18, 2024 pm 08:25 PM

人工智能 ai sora

Das weltweit erste Open-Source-Videogenerierungsmodell für Sora-ähnliche Architektur ist da!

Der gesamte Trainingsprozess, einschließlich der Datenverarbeitung, aller Trainingsdetails und Modellgewichte, ist offen.

Dies ist das gerade veröffentlichte Open-Sora 1.0.

Der tatsächliche Effekt ist wie folgt: Es kann den geschäftigen Verkehr in der Nachtszene der geschäftigen Stadt erzeugen.

Die weltweit erste Sora-ähnliche Open-Source-Reproduktionslösung ist da! Vollständige Offenlegung aller Trainingsdetails und Modellgewichte

Sie können auch eine Luftbildperspektive verwenden, um die Szene der Klippenküste und des gegen die Felsen plätschernden Meerwassers zu zeigen.

Die weltweit erste Sora-ähnliche Open-Source-Reproduktionslösung ist da! Vollständige Offenlegung aller Trainingsdetails und Modellgewichte

Oder der weite Sternenhimmel unter Zeitrafferfotografie.

Die weltweit erste Sora-ähnliche Open-Source-Reproduktionslösung ist da! Vollständige Offenlegung aller Trainingsdetails und Modellgewichte

Seit seiner Veröffentlichung ist die Enthüllung und Reproduktion von Sora aufgrund seiner atemberaubenden Effekte und des Mangels an technischen Details zu einem der am meisten diskutierten Themen in der Entwickler-Community geworden. Beispielsweise hat das Colossal-AI-Team einen Sora-Trainings- und Inferenzreplikationsprozess gestartet, der die Kosten um 46 % senken kann.

Nach nur zwei Wochen veröffentlichte das Team erneut die neuesten Fortschritte, reproduzierte eine Sora-ähnliche Lösung und stellte die technische Lösung sowie detaillierte praktische Tutorials kostenlos und Open Source auf GitHub zur Verfügung.

Dann stellt sich die Frage: Wie kann man Sora reproduzieren?

Open-Sora Open-Source-Adresse: https://github.com/hpcaitech/Open-Sora

Umfassende Interpretation der Sora-Replikationslösung

Die Sora-Replikationslösung umfasst vier Aspekte:

Modellarchitekturdesign
Schulung Replikation Die aktuelle Lösung
Datenvorverarbeitung
Effiziente Trainingsoptimierungsstrategie

Modellarchitekturdesign

Das Modell übernimmt die Sora-homologe Architektur Diffusion Transformer (DiT).

Es basiert auf PixArt-α, einem hochwertigen Open-Source-Graphmodell mit DiT-Architektur. Auf dieser Basis wird eine zeitliche Aufmerksamkeitsschicht eingeführt und auf Videodaten erweitert.

Konkret umfasst die gesamte Architektur ein vortrainiertes VAE, einen Text-Encoder und ein STDiT-Modell (Spatial Temporal Diffusion Transformer), das den räumlich-zeitlichen Aufmerksamkeitsmechanismus nutzt.

Unter diesen ist die Struktur jeder Schicht von STDiT in der folgenden Abbildung dargestellt.

Es verwendet eine serielle Methode, um ein eindimensionales zeitliches Aufmerksamkeitsmodul mit einem zweidimensionalen räumlichen Aufmerksamkeitsmodul zu überlagern, um zeitliche Beziehungen zu modellieren. Nach dem zeitlichen Aufmerksamkeitsmodul wird das Kreuzaufmerksamkeitsmodul verwendet, um die Semantik des Textes auszurichten.

Im Vergleich zum Vollaufmerksamkeitsmechanismus reduziert eine solche Struktur den Trainings- und Inferenzaufwand erheblich.

Im Vergleich zum Latte-Modell, das ebenfalls den räumlich-zeitlichen Aufmerksamkeitsmechanismus verwendet, kann STDiT die Gewichte des vorab trainierten Bild-DiT besser nutzen, um das Training an Videodaten fortzusetzen.

△STDiT-Strukturdiagramm

Der Trainings- und Inferenzprozess des gesamten Modells ist wie folgt.

Es versteht sich, dass in der Trainingsphase zunächst der vorab trainierte Variational Autoencoder (VAE)-Encoder zum Komprimieren der Videodaten verwendet wird und dann das STDiT-Diffusionsmodell zusammen mit der Texteinbettung im komprimierten latenten Raum trainiert wird.

In der Inferenzphase wird ein Gaußsches Rauschen zufällig aus dem latenten Raum des VAE abgetastet und zusammen mit der Prompt-Einbettung in STDiT eingegeben, um die entrauschten Merkmale zu erhalten. Schließlich wird es in den VAE-Decoder eingegeben und dekodiert, um ein Video zu erhalten.

Die weltweit erste Sora-ähnliche Open-Source-Reproduktionslösung ist da! Vollständige Offenlegung aller Trainingsdetails und Modellgewichte

△Modelltrainingsprozess

Trainingsreproduktionsplan

Im Trainingsreproduktionsteil bezieht sich Open-Sora auf Stable Video Diffusion (SVD).

Es ist in 3 Phasen unterteilt:

Großflächiges Bild-Vortraining.
Groß angelegtes Video-Vortraining.
Hochwertige Feinabstimmung der Videodaten.

Bei jeder Stufe wird das Training basierend auf den Gewichten der vorherigen Stufe fortgesetzt. Im Vergleich zum einstufigen Training von Grund auf erreicht das mehrstufige Training das Ziel einer qualitativ hochwertigen Videogenerierung effizienter, indem die Daten schrittweise erweitert werden.

Die weltweit erste Sora-ähnliche Open-Source-Reproduktionslösung ist da! Vollständige Offenlegung aller Trainingsdetails und Modellgewichte △Dreistufiger Trainingsplan

Die erste Stufe ist das groß angelegte Bild-Vortraining.

Das Team nutzte die umfangreichen Bilddaten und die vinzentinische Graphentechnologie im Internet, um zunächst ein hochwertiges vinzentinisches Graphenmodell zu trainieren und dieses Modell als Initialisierungsgewicht für die nächste Stufe des Video-Vortrainings zu verwenden.

Da es derzeit keine qualitativ hochwertige räumlich-zeitliche VAE gibt, verwenden sie gleichzeitig vorab trainierte Bild-VAE mit stabiler Diffusion.

Dies stellt nicht nur die überlegene Leistung des ursprünglichen Modells sicher, sondern reduziert auch die Gesamtkosten für das Video-Vortraining erheblich.

Die zweite Stufe ist ein groß angelegtes Video-Vortraining.

Diese Phase erhöht hauptsächlich die Generalisierungsfähigkeit des Modells und erfasst effektiv die Zeitreihenkorrelation des Videos.

Es muss eine große Menge an Videodaten für das Training verwendet und die Vielfalt der Videomaterialien sichergestellt werden.

Gleichzeitig fügt das Modell der zweiten Stufe ein zeitliches Aufmerksamkeitsmodul hinzu, das auf dem vinzentinischen Graphenmodell der ersten Stufe basiert, um zeitliche Beziehungen in Videos zu lernen. Die verbleibenden Module bleiben mit der ersten Stufe konsistent und laden die Gewichte der ersten Stufe als Initialisierung, während die Ausgabe des zeitlichen Aufmerksamkeitsmoduls auf Null initialisiert wird, um eine effizientere und schnellere Konvergenz zu erreichen.

Das Colossal-AI-Team verwendete die Open-Source-Gewichte von PixArt-alpha als Initialisierung des STDiT-Modells der zweiten Stufe und das T5-Modell als Text-Encoder. Für das Vortraining verwendeten sie eine kleine Auflösung von 256 x 256, was die Konvergenzgeschwindigkeit weiter erhöhte und die Trainingskosten senkte.

△Open-Sora-Generierungseffekt (Stichwort: Aufnahmen der Unterwasserwelt, in der eine Schildkröte gemächlich zwischen Korallenriffen schwimmt)

Die dritte Stufe ist die Feinabstimmung hochwertiger Videodaten.

Berichten zufolge kann diese Phase die Qualität der Modellgenerierung erheblich verbessern. Die verwendete Datengröße ist um eine Größenordnung geringer als in der vorherigen Stufe, aber die Dauer, Auflösung und Qualität der Videos sind höher.

Durch die Feinabstimmung auf diese Weise kann eine effiziente Erweiterung der Videoerzeugung von kurz auf lang, von niedriger Auflösung auf hohe Auflösung und von niedriger Wiedergabetreue auf hohe Wiedergabetreue erreicht werden.

Erwähnenswert ist, dass Colossal-AI auch den Ressourcenverbrauch jeder Stufe detailliert offengelegt hat.

Im Reproduktionsprozess von Open-Sora nutzten sie 64 H800 für das Training. Das Gesamttrainingsvolumen der zweiten Stufe beträgt 2808 GPU-Stunden, was etwa 7.000 US-Dollar entspricht, und das Trainingsvolumen der dritten Stufe beträgt 1920 GPU-Stunden, was etwa 4.500 US-Dollar entspricht. Nach vorläufiger Schätzung kontrollierte der gesamte Trainingsplan den Open-Sora-Reproduktionsprozess erfolgreich auf etwa 10.000 US-Dollar.

Datenvorverarbeitung

Um den Schwellenwert und die Komplexität der Sora-Wiederholung weiter zu reduzieren, stellt das Colossal-AI-Team außerdem ein praktisches Videodaten-Vorverarbeitungsskript im Code-Warehouse bereit, sodass jeder problemlos mit dem Vortraining für Sora-Wiederholungen beginnen kann.

Einschließlich des Herunterladens öffentlicher Videodatensätze, der Segmentierung langer Videos in kurze Videoclips basierend auf der Aufnahmekontinuität und der Verwendung des Open-Source-Großsprachenmodells LLaVA zur Generierung präziser Aufforderungswörter.

Der von ihnen bereitgestellte Batch-Code zur Generierung von Videotiteln kann ein Video mit zwei Karten und 3 Sekunden mit Anmerkungen versehen, und die Qualität liegt nahe an GPT-4V.

Das finale Video/Text-Paar kann direkt zum Training genutzt werden. Mit dem auf GitHub bereitgestellten Open-Source-Code können Sie einfach und schnell die für das Training erforderlichen Video-/Textpaare auf Ihrem eigenen Datensatz generieren und so den technischen Schwellenwert und die vorbereitende Vorbereitung für den Start eines Sora-Replikationsprojekts erheblich reduzieren.

Die weltweit erste Sora-ähnliche Open-Source-Reproduktionslösung ist da! Vollständige Offenlegung aller Trainingsdetails und Modellgewichte

Effiziente Trainingsunterstützung

Darüber hinaus bietet das Colossal-AI-Team auch eine Lösung zur Trainingsbeschleunigung.

Durch effiziente Trainingsstrategien wie Bedieneroptimierung und Hybridparallelität wurde beim Training der Verarbeitung von Videos mit 64 Bildern und einer Auflösung von 512 x 512 ein 1,55-facher Beschleunigungseffekt erzielt.

Gleichzeitig kann dank des heterogenen Speicherverwaltungssystems von Colossal-AI eine 1-minütige 1080p-HD-Video-Trainingsaufgabe ungehindert auf einem einzigen Server (8H800) durchgeführt werden.

Die weltweit erste Sora-ähnliche Open-Source-Reproduktionslösung ist da! Vollständige Offenlegung aller Trainingsdetails und Modellgewichte

Und das Team stellte außerdem fest, dass die STDiT-Modellarchitektur auch während des Trainings eine hervorragende Effizienz zeigte.

Im Vergleich zu DiT, das den Vollaufmerksamkeitsmechanismus nutzt, erreicht STDiT mit zunehmender Anzahl von Bildern eine bis zu fünffache Beschleunigung, was besonders bei realen Aufgaben wie der Verarbeitung langer Videosequenzen von entscheidender Bedeutung ist.

Die weltweit erste Sora-ähnliche Open-Source-Reproduktionslösung ist da! Vollständige Offenlegung aller Trainingsdetails und Modellgewichte

Schließlich veröffentlichte das Team auch weitere Open-Sora-Generationseffekte.

, Dauer 00:25

Das Team und Qubits gaben bekannt, dass sie Open-Sora-bezogene Lösungen und Entwicklungen langfristig aktualisieren und optimieren werden. In Zukunft werden mehr Videotrainingsdaten verwendet, um qualitativ hochwertigere, längere Videoinhalte zu generieren und Funktionen mit mehreren Auflösungen zu unterstützen.

In Bezug auf praktische Anwendungen gab das Team bekannt, dass es die Umsetzung in Filmen, Spielen, Werbung und anderen Bereichen vorantreiben wird.

Interessierte Entwickler können das GitHub-Projekt besuchen, um mehr zu erfahren~

Open-Sora Open-Source-Adresse: https://github.com/hpcaitech/Open-Sora

Referenzlink:

[1]https://arxiv .org/abs/2212.09748 Skalierbare Diffusionsmodelle mit Transformatoren.

[2]https://arxiv.org/abs/2310.00426 PixArt-α: Schnelles Training des Diffusionstransformators für die fotorealistische Text-zu-Bild-Synthese.

[3]https://arxiv.org/abs/2311.15127 Stabile Videodiffusion: Skalierung latenter Videodiffusionsmodelle auf große Datensätze.

[4]https://arxiv.org/abs/2401.03048 Latte: Latent Diffusion Transformer für die Videoerzeugung.

[5]https://huggingface.co/stabilityai/sd-vae-ft-mse-original.

[6]https://github.com/google-research/text-to-text-transfer-transformer.

[7]https://github.com/haotian-liu/LLaVA.

[8]https://hpc-ai.com/blog/open-sora-v1.0.

Das obige ist der detaillierte Inhalt vonDie weltweit erste Sora-ähnliche Open-Source-Reproduktionslösung ist da! Vollständige Offenlegung aller Trainingsdetails und Modellgewichte. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

3 Wochen vor By DDD

Wie kann ich KB5055523 in Windows 11 nicht installieren?

2 Wochen vor By DDD

Inzoi: Wie man sich für Schule und Universität bewerbt

3 Wochen vor By DDD

Wie kann ich KB5055518 in Windows 10 nicht installieren?

2 Wochen vor By DDD

Roblox: Dead Rails - wie man Nikola Tesla beschwört und besiegt

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7824

Java-Tutorial

1647

CakePHP-Tutorial

1402

Laravel-Tutorial

1300

PHP-Tutorial

1238

Related knowledge

Top 10 neueste Veröffentlichungen für virtuelle Währungshandelsplattformen für Bulk -Transaktionen Apr 22, 2025 am 08:18 AM

Die folgenden Faktoren sollten bei der Auswahl einer Bulk -Handelsplattform berücksichtigt werden: 1. Liquidität: Plattformen mit einem durchschnittlichen täglichen Handelsvolumen von mehr als 5 Milliarden US -Dollar wird vor Priorität gegeben. 2. Compliance: Überprüfen Sie, ob die Plattform Lizenzen wie Fincen in den USA, MICA in der Europäischen Union, enthält. 3. Sicherheit: Kaltbrieftaschenspeicherverhältnis und Versicherungsmechanismus sind Schlüsselindikatoren. 4. Servicefunktion: Ob exklusive Kontomanager und maßgeschneiderte Transaktionstools bereitgestellt werden.

Zusammenfassung der Top Ten Apple -Version Download -Portale für digitale Währungsaustausch -Apps herunterladen Apr 22, 2025 am 09:27 AM

Bietet eine Vielzahl komplexer Handelsinstrumente und Marktanalysen. Es deckt mehr als 100 Länder ab, hat ein durchschnittliches tägliches Derivatvolumen von über 30 Milliarden US -Dollar, unterstützt mehr als 300 Handelspaare und den 200 -fachen Hebel, hat eine starke technische Stärke, eine riesige globale Benutzerbasis, bietet professionelle Handelsplattformen, sichere Speicherlösungen und reichhaltige Handelspaare.

Was sind die zehn Top -Apps für virtuelle Währungshandel? Empfohlen auf den Top Ten Digital Currency Exchange -Plattformen Apr 22, 2025 pm 01:12 PM

Die Top Ten Secure Digital Currency Exchanges im Jahr 2025 sind: 1. Binance, 2. OKX, 3. Gate.io, 4. Coinbase, 5. Kraken, 6. Huobi, 7. Bitfinex, 8. Kucoin, 9. Bybit, 10. Bitstamp. Diese Plattformen ergreifen mehrstufige Sicherheitsmaßnahmen, einschließlich der Trennung von Heiß- und Kaltbrieftaschen, mehreren Signaturtechnologie und einem 24-/-Überwachungssystem, um die Sicherheit von Benutzerfonds zu gewährleisten.

Was sind die Stablecoins? Wie handelt ich Stablecoins? Apr 22, 2025 am 10:12 AM

Gemeinsame Stablecoins sind: 1. Tether, ausgestellt von Tether, an den US -Dollar, weit verbreitet, aber Transparenz in Frage gestellt; 2. US -Dollar, ausgestellt von Circle and Coinbase, mit hoher Transparenz und von Institutionen bevorzugt; 3.. Dai, ausgestellt von Makerdao, dezentralisiert und beliebt im Defi -Feld; V. 5. Trustto

Wie viele Stablecoin -Börsen gibt es jetzt? Wie viele Arten von Stablecoins gibt es? Apr 22, 2025 am 10:09 AM

Ab 2025 beträgt die Anzahl der Stablecoin -Börsen etwa 1.000. 1. Stabile Münzen, die von Fiat-Währungen unterstützt werden, umfassen USDT, USDC usw. 2.. 3. Algorithmus Stablecoins wie Terrusd. 4. Es gibt auch hybride Stablecoins.

Welche der zehn besten Transaktionen im Währungskreis? Die neuesten Empfehlungen für Währungskreis -Apps Apr 24, 2025 am 11:57 AM

Die Auswahl eines zuverlässigen Austauschs ist entscheidend. Die zehn Top -Börsen wie Binance, OKX und Gate.io haben ihre eigenen Eigenschaften. Auch neue Apps wie Coencko und Crypto.com sind es wert, aufmerksam zu werden.

Was sind die nächsten tausendfachen Münzen im Jahr 2025? Apr 24, 2025 pm 01:45 PM

Ab April 2025 gelten sieben Kryptowährungsprojekte als ein signifikantes Wachstumspotenzial: 1. Filecoin (Fil) erreicht eine schnelle Entwicklung durch verteilte Speicheretzwerke; 2. Aptos (APT) zieht DAPP-Entwickler mit Hochleistungsschicht 1 an öffentlichen Ketten an; 3.. Polygon (matic) verbessert die Leistung der Ethereum -Netzwerk; V. 5. Avalanche (AVAX) handelt schnell und

Was ist DLC -Währung? Was ist die Aussicht auf DLC -Währung? Apr 24, 2025 pm 12:03 PM

DLC-Münzen sind blockchainbasierte Kryptowährungen, die eine effiziente und sichere Handelsplattform, die Unterstützung intelligenter Verträge und Cross-Chain-Technologien für die Finanz- und Zahlungsfelder bieten.

See all articles