Inhaltsverzeichnis

Im Vergleich zum Latte-Modell [3], das ebenfalls den räumlich-zeitlichen Aufmerksamkeitsmechanismus verwendet, kann STDiT die Gewichte vorab trainierter Bild-DiT besser nutzen, um das Training an Videodaten fortzusetzen.

Trainingsreplikationsplan

Datenvorverarbeitung

Anzeige des Modellgenerierungseffekts

Ein Blick auf den Videogenerierungseffekt des Open-Sora-Modells

Heim

Technologie-Peripheriegeräte

Warten Sie nicht auf OpenAI, das weltweit erste Sora-ähnliche Gerät ist Open Source First! Alle Trainingsdetails/Modellgewichte werden vollständig offengelegt und die Kosten betragen nur 10.000 US-Dollar

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 19, 2024 am 09:00 AM

ai 开源

Vor nicht allzu langer Zeit wurde OpenAI Sora mit seinen erstaunlichen Videogenerierungseffekten schnell populär, machte seine Unterschiede zu anderen Vincent-Videomodellen deutlich und rückte in den Mittelpunkt weltweiter Aufmerksamkeit.

Nach der Einführung des Prozesses zur Reproduktion von Sora-Trainingsinferenzen mit einer Kostenreduzierung von 46 % vor zwei Wochen hat das Colossal-AI-Team das weltweit erste Sora-ähnliche Architektur-Videogenerierungsmodell „Open-Sora 1.0“ vollständig als Open-Source-Lösung bereitgestellt - deckt den gesamten Trainingsprozess ab, einschließlich der Datenverarbeitung, aller Trainingsdetails und Modellgewichte. Schließen Sie sich mit globalen KI-Enthusiasten zusammen, um eine neue Ära der Videoerstellung voranzutreiben.

Für einen kleinen Vorgeschmack werfen wir einen Blick auf „Open-Sora“, veröffentlicht von Das vom Colossal-AI-Team 1.0" modellgenerierte Schnappschussvideo der geschäftigen Stadt.

... oben Wensheng-Video Schulungsdetails, Datenvorverarbeitungsprozess, Demo-Anzeige und detailliertes Tutorial für die ersten Schritte Das Colossal-AI-Team wurde vollständig und kostenlos als Open Source auf GitHub bereitgestellt.

Xinzhiyuan kontaktierte das Team so schnell wie möglich und erfuhr, dass es weiterhin Open-Sora-bezogene Lösungen und neueste Entwicklungen aktualisieren wird. Interessierte Freunde können über die Open-Source-Community von Open-Sora auf dem Laufenden bleiben. Umfassende Interpretation der Replikationslösung von Sora Optimierungsstrategien.

Modellarchitekturdesign

Das Modell übernimmt die derzeit beliebte Diffusion Transformer (DiT) [1]-Architektur.

Das Autorenteam verwendet das hochwertige Open-Source-Vincent-Graphmodell PixArt-α [2], das ebenfalls die DiT-Architektur als Basis verwendet, führt auf dieser Basis die zeitliche Aufmerksamkeitsschicht ein und erweitert sie auf Videodaten .

Warten Sie nicht auf OpenAI, das weltweit erste Sora-ähnliche Gerät ist Open Source First! Alle Trainingsdetails/Modellgewichte werden vollständig offengelegt und die Kosten betragen nur 10.000 US-Dollar Konkret umfasst die gesamte Architektur ein vortrainiertes VAE, einen Text-Encoder und ein STDiT-Modell (Spatial Temporal Diffusion Transformer), das den räumlich-zeitlichen Aufmerksamkeitsmechanismus nutzt.

Unter diesen ist die Struktur jeder Schicht von STDiT in der folgenden Abbildung dargestellt. Es verwendet eine serielle Methode, um ein eindimensionales zeitliches Aufmerksamkeitsmodul mit einem zweidimensionalen räumlichen Aufmerksamkeitsmodul zu überlagern und so zeitliche Beziehungen zu modellieren.

Nach dem zeitlichen Aufmerksamkeitsmodul wird das Kreuzaufmerksamkeitsmodul verwendet, um die Semantik des Textes auszurichten. Im Vergleich zum Vollaufmerksamkeitsmechanismus reduziert eine solche Struktur den Trainings- und Inferenzaufwand erheblich. Warten Sie nicht auf OpenAI, das weltweit erste Sora-ähnliche Gerät ist Open Source First! Alle Trainingsdetails/Modellgewichte werden vollständig offengelegt und die Kosten betragen nur 10.000 US-Dollar

Im Vergleich zum Latte-Modell [3], das ebenfalls den räumlich-zeitlichen Aufmerksamkeitsmechanismus verwendet, kann STDiT die Gewichte vorab trainierter Bild-DiT besser nutzen, um das Training an Videodaten fortzusetzen.

STDiT-Strukturdiagramm

Der Trainings- und Inferenzprozess des gesamten Modells ist wie folgt. Es versteht sich, dass in der Trainingsphase zunächst der vorab trainierte Variational Autoencoder (VAE)-Encoder zum Komprimieren der Videodaten verwendet wird und dann das STDiT-Diffusionsmodell zusammen mit der Texteinbettung im komprimierten latenten Raum trainiert wird.

In der Inferenzphase wird ein Gaußsches Rauschen zufällig aus dem latenten Raum von VAE abgetastet und zusammen mit einer sofortigen Einbettung in STDiT eingegeben, um die entrauschten Merkmale zu erhalten. Schließlich wird es in den Decoder von VAE eingegeben und dekodiert, um ein Video zu erhalten.

Modelltrainingsprozess

Trainingsreplikationsplan

Wir haben vom Team erfahren, dass sich das Replikationsschema von Open-Sora auf die Arbeit Stable Video Diffusion (SVD) [3] bezieht. Es umfasst drei Phasen , nämlich:

1. Groß angelegtes Bild-Vortraining;

3. Feinabstimmung von hochwertigen Videos Daten.

In jeder Stufe wird das Training basierend auf den Gewichten der vorherigen Stufe fortgesetzt. Im Vergleich zum einstufigen Training von Grund auf erreicht das mehrstufige Training das Ziel einer qualitativ hochwertigen Videogenerierung effizienter, indem die Daten schrittweise erweitert werden.

Drei Stufen des Trainingsplans

Die erste Stufe: groß angelegtes Bild-Vortraining

Die erste Stufe erfolgt durch groß angelegtes Bild-Vortraining, mit dem Mithilfe eines ausgereiften vinzentinischen Diagrammmodells können die Kosten für das Video-Vortraining effektiv gesenkt werden. Das Autorenteam hat uns gezeigt, dass wir durch die umfangreichen, großformatigen Bilddaten im Internet und die fortschrittliche Vincent-Graph-Technologie ein hochwertiges Vincent-Graph-Modell trainieren können, das als Initialisierungsgewicht für die nächste Stufe dient des Video-Vortrainings.

Da es derzeit keine qualitativ hochwertige räumlich-zeitliche VAE gibt, verwendeten sie gleichzeitig die durch das Modell Stable Diffusion [5] vorab trainierte Bild-VAE. Diese Strategie stellt nicht nur die überlegene Leistung des ursprünglichen Modells sicher, sondern reduziert auch die Gesamtkosten für das Video-Vortraining erheblich.

Zweite Stufe: groß angelegtes Video-Vortraining

In der zweiten Stufe wird ein groß angelegtes Video-Vortraining durchgeführt, um die Fähigkeiten zur Modellverallgemeinerung zu verbessern und die Zeitreihenkorrelation von Videos effektiv zu erfassen. Wir verstehen, dass diese Phase die Verwendung einer großen Menge an Videodaten für das Training erfordert, um die Vielfalt der Videothemen sicherzustellen und dadurch die Generalisierungsfähigkeit des Modells zu erhöhen. Das Modell der zweiten Stufe fügt dem vinzentinischen Graphenmodell der ersten Stufe ein zeitliches Aufmerksamkeitsmodul hinzu, um zeitliche Beziehungen in Videos zu lernen.

Die verbleibenden Module stimmen mit der ersten Stufe überein und laden die Gewichte der ersten Stufe als Initialisierung. Gleichzeitig wird die Ausgabe des zeitlichen Aufmerksamkeitsmoduls auf Null initialisiert, um eine effizientere und schnellere Konvergenz zu erreichen.

Das Colossal-AI-Team verwendete die Open-Source-Gewichte von PixArt-alpha[2] als Initialisierung des STDiT-Modells der zweiten Stufe und das T5[6]-Modell als Text-Encoder. Gleichzeitig verwendeten sie für das Vortraining eine kleine Auflösung von 256 x 256, was die Konvergenzgeschwindigkeit weiter erhöhte und die Trainingskosten senkte.

Die dritte Stufe: Feinabstimmung hochwertiger Videodaten

Die dritte Stufe optimiert hochwertige Videodaten, um die Qualität der Videogenerierung deutlich zu verbessern. Das Autorenteam erwähnte, dass die Größe der in der dritten Stufe verwendeten Videodaten eine Größenordnung geringer ist als die in der zweiten Stufe, aber die Dauer, Auflösung und Qualität des Videos sind höher. Durch diese Feinabstimmung erreichten sie eine effiziente Skalierung der Videoerzeugung von kurz auf lang, von niedriger auf hohe Auflösung und von niedriger auf hohe Wiedergabetreue.

Das Autorenteam gab an, dass sie im Open-Sora-Reproduktionsprozess 64 H800-Blöcke für das Training verwendet haben.

Der Gesamtumfang des Trainings in der zweiten Stufe beträgt 2808 GPU-Stunden, was etwa 7.000 US-Dollar entspricht. Das Trainingsvolumen der dritten Stufe beträgt 1920 GPU-Stunden, was etwa 4500 US-Dollar entspricht. Nach vorläufiger Schätzung kontrollierte der gesamte Trainingsplan den Open-Sora-Reproduktionsprozess erfolgreich auf etwa 10.000 US-Dollar.

Datenvorverarbeitung

Um den Schwellenwert und die Komplexität der Sora-Wiederholung weiter zu reduzieren, stellt das Colossal-AI-Team außerdem ein praktisches Videodaten-Vorverarbeitungsskript im Code Warehouse bereit, sodass jeder problemlos mit dem Vortraining für Sora-Wiederholungen beginnen kann , einschließlich des Downloads öffentlicher Videodatensätze, werden lange Videos basierend auf der Aufnahmekontinuität in kurze Videoclips segmentiert und das Open-Source-Großsprachenmodell LLaVA [7] wird verwendet, um präzise Aufforderungswörter zu generieren.

Das Autorenteam erwähnte, dass der von ihnen bereitgestellte Code zur Batch-Videotitelgenerierung ein Video mit zwei Karten in 3 Sekunden mit Anmerkungen versehen kann und die Qualität nahe an GPT-4V liegt. Die resultierenden Video-/Textpaare können direkt für das Training verwendet werden.

Mit dem Open-Source-Code, den sie auf GitHub bereitstellen, können wir einfach und schnell die für das Training erforderlichen Video-/Textpaare auf unserem eigenen Datensatz generieren und so den technischen Schwellenwert und die vorbereitende Vorbereitung für den Start des Sora-Replikationsprojekts erheblich reduzieren.

Video-/Textpaar wird automatisch basierend auf einem Datenvorverarbeitungsskript generiert

Anzeige des Modellgenerierungseffekts

Werfen wir einen Blick auf den tatsächlichen Videogenerierungseffekt von Open-Sora. Lassen Sie Open-Sora beispielsweise Luftaufnahmen von Meerwasser erstellen, das an Felsen an einer Klippenküste plätschert.

Lassen Sie Open-Sora den herrlichen Blick aus der Vogelperspektive auf Berge und Wasserfälle einfangen, die von den Klippen herabstürzen und schließlich in den See fließen.

Sie können nicht nur in den Himmel steigen, sondern auch ins Meer gehen und Open-Sora eine Aufnahme der Unterwasserwelt erstellen lassen Korallenriffe.

Open-Sora kann uns auch die sternenklare Milchstraße durch Zeitrafferfotografie zeigen.

Wenn Sie weitere interessante Ideen für die Videogenerierung haben, können Sie die Open-Source-Community Open-Sora besuchen, um die Modellgewichte für ein kostenloses Erlebnis zu erhalten.

Link: https://github.com/hpcaitech/Open-Sora

Es ist erwähnenswert, dass das Autorenteam auf Github erwähnt hat, dass die aktuelle Version nur 400.000 Trainingsdaten verwendet, Modell Both Die Generierungsqualität und die Fähigkeit, dem Text zu folgen, müssen verbessert werden. Im obigen Schildkrötenvideo hat die resultierende Schildkröte beispielsweise ein zusätzliches Bein. Open-Sora 1.0 ist auch nicht gut darin, Porträts und komplexe Bilder zu erstellen.

Das Autorenteam listete eine Reihe von Plänen auf, die auf Github umgesetzt werden sollen, mit dem Ziel, bestehende Mängel kontinuierlich zu beheben und die Qualität der Produktion zu verbessern. Effiziente Trainingsunterstützung -KI-Beschleunigung Das System bietet effiziente Trainingsunterstützung für Soras Wiederholung.

Warten Sie nicht auf OpenAI, das weltweit erste Sora-ähnliche Gerät ist Open Source First! Alle Trainingsdetails/Modellgewichte werden vollständig offengelegt und die Kosten betragen nur 10.000 US-Dollar Durch effiziente Trainingsstrategien wie Bedieneroptimierung und Hybridparallelität wurde beim Training der Verarbeitung von Videos mit 64 Bildern und einer Auflösung von 512 x 512 ein 1,55-facher Beschleunigungseffekt erzielt.

Gleichzeitig kann dank des heterogenen Speicherverwaltungssystems von Colossal-AI eine 1-minütige 1080p-HD-Video-Trainingsaufgabe ungehindert auf einem einzigen Server (8 x H800) durchgeführt werden.

Darüber hinaus haben wir im Bericht des Autorenteams auch festgestellt, dass die STDiT-Modellarchitektur auch während des Trainings eine hervorragende Effizienz zeigte.

Im Vergleich zu DiT, das den Vollaufmerksamkeitsmechanismus nutzt, erreicht STDiT mit zunehmender Anzahl von Bildern eine bis zu fünffache Beschleunigung, was besonders bei realen Aufgaben wie der Verarbeitung langer Videosequenzen von entscheidender Bedeutung ist.

Ein Blick auf den Videogenerierungseffekt des Open-Sora-Modells

huanWillkommen, weiterhin auf das Open-Sora-Open-Source-Projekt zu achten: https://github.com /hpcaitech/Open-Sora

Das Autorenteam erwähnte, dass es das Open-Sora-Projekt weiterhin pflegen und optimieren wird und voraussichtlich mehr Videotrainingsdaten verwenden wird, um qualitativ hochwertigere, längere Videoinhalte zu generieren und Multi zu unterstützen -Auflösungsfunktionen, die praktisch sind. Fördern Sie die Implementierung der KI-Technologie in Filmen, Spielen, Werbung und anderen Bereichen.

Das obige ist der detaillierte Inhalt vonWarten Sie nicht auf OpenAI, das weltweit erste Sora-ähnliche Gerät ist Open Source First! Alle Trainingsdetails/Modellgewichte werden vollständig offengelegt und die Kosten betragen nur 10.000 US-Dollar. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Assassin's Creed Shadows: Seashell Riddle -Lösung

4 Wochen vor By DDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

3 Wochen vor By DDD

Wo kann man die Kransteuerungsschlüsselkarten in Atomfall finden

4 Wochen vor By DDD

<🎜>: Dead Rails - wie man jede Herausforderung abschließt

1 Monate vor By DDD

Atomfall Guide: Gegenstandsstandorte, Questführer und Tipps

1 Monate vor By DDD

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7696

Java-Tutorial

1640

CakePHP-Tutorial

1393

Laravel-Tutorial

1287

PHP-Tutorial

1229

Related knowledge

Was bedeutet Cross-Chain-Transaktion? Was sind die Cross-Chain-Transaktionen? Apr 21, 2025 pm 11:39 PM

Börsen, die Cross-Chain-Transaktionen unterstützen: 1. Binance, 2. Uniswap, 3. Sushiswap, 4. Kurvenfinanzierung, 5. Thorchain, 6. 1inch Exchange, 7. DLN-Handel, diese Plattformen unterstützen Multi-Chain-Asset-Transaktionen durch verschiedene Technologien.

Web3 Trading Platform Ranking_Web3 Globale Top Ten Summary Top Ten Summary Apr 21, 2025 am 10:45 AM

Binance ist der Overlord des Global Digital Asset Trading -Ökosystems, und seine Merkmale umfassen: 1. Das durchschnittliche tägliche Handelsvolumen übersteigt 150 Milliarden US -Dollar, unterstützt 500 Handelspaare, die 98% der Mainstream -Währungen abdecken. 2. Die Innovationsmatrix deckt den Markt für Derivate, das Web3 -Layout und den Bildungssystem ab; 3. Die technischen Vorteile sind Millisekunden -Matching -Engines mit Spitzenvolumina von 1,4 Millionen Transaktionen pro Sekunde. 4. Compliance Progress hält 15 Länderlizenzen und legt konforme Einheiten in Europa und den Vereinigten Staaten ein.

Worldcoin (WLD) Preisprognose 2025-2031: Wird WLD bis 2031 $ erreichen? Apr 21, 2025 pm 02:42 PM

Worldcoin (WLD) fällt auf dem Kryptowährungsmarkt mit seinen einzigartigen biometrischen Überprüfungs- und Datenschutzschutzmechanismen auf, die die Aufmerksamkeit vieler Investoren auf sich ziehen. WLD hat mit seinen innovativen Technologien, insbesondere in Kombination mit OpenAI -Technologie für künstliche Intelligenz, außerdem unter Altcoins gespielt. Aber wie werden sich die digitalen Vermögenswerte in den nächsten Jahren verhalten? Lassen Sie uns den zukünftigen Preis von WLD zusammen vorhersagen. Die Preisprognose von 2025 WLD wird voraussichtlich im Jahr 2025 ein signifikantes Wachstum in WLD erzielen. Die Marktanalyse zeigt, dass der durchschnittliche WLD -Preis 1,31 USD mit maximal 1,36 USD erreichen kann. In einem Bärenmarkt kann der Preis jedoch auf rund 0,55 US -Dollar fallen. Diese Wachstumserwartung ist hauptsächlich auf Worldcoin2 zurückzuführen.

'Black Monday Sell' ist ein schwieriger Tag für die Kryptowährungsbranche Apr 21, 2025 pm 02:48 PM

Der Sprung in den Kryptowährungsmarkt hat bei den Anlegern Panik verursacht, und Dogecoin (DOGE) ist zu einem der am stärksten getroffenen Bereiche geworden. Der Preis fiel stark, und die Gesamtwertsperrung der dezentralen Finanzierung (DEFI) (TVL) verzeichnete ebenfalls einen signifikanten Rückgang. Die Verkaufswelle von "Black Monday" fegte den Kryptowährungsmarkt, und Dogecoin war der erste, der getroffen wurde. Die Defitvl fiel auf 2023 und der Währungspreis fiel im vergangenen Monat um 23,78%. Die Defitvl von Dotecoin fiel auf ein Tiefpunkt von 2,72 Millionen US -Dollar, hauptsächlich aufgrund eines Rückgangs des SOSO -Wertindex um 26,37%. Andere große Defi -Plattformen wie die langweilige DAO und Thorchain, TVL, fielen ebenfalls um 24,04% bzw. 20.

Rangliste der Hebelbörsen im Währungskreis Die neuesten Empfehlungen der zehn meistgezogenen Börsen im Währungskreis Apr 21, 2025 pm 11:24 PM

Die Plattformen, die im Jahr 2025 im Leveraged Trading, Security und Benutzererfahrung hervorragende Leistung haben, sind: 1. OKX, geeignet für Hochfrequenzhändler und bieten bis zu 100-fache Hebelwirkung; 2. Binance, geeignet für Mehrwährungshändler auf der ganzen Welt und bietet 125-mal hohe Hebelwirkung; 3. Gate.io, geeignet für professionelle Derivate Spieler, die 100 -fache Hebelwirkung bietet; 4. Bitget, geeignet für Anfänger und Sozialhändler, die bis zu 100 -fache Hebelwirkung bieten; 5. Kraken, geeignet für stetige Anleger, die fünfmal Hebelwirkung liefert; 6. Bybit, geeignet für Altcoin -Entdecker, die 20 -fache Hebelwirkung bietet; 7. Kucoin, geeignet für kostengünstige Händler, die 10-fache Hebelwirkung bietet; 8. Bitfinex, geeignet für das Seniorenspiel

Warum ist der Anstieg oder Abfall der virtuellen Währungspreise? Warum ist der Anstieg oder Abfall der virtuellen Währungspreise? Apr 21, 2025 am 08:57 AM

Faktoren der steigenden Preise für virtuelle Währung sind: 1. Erhöhte Marktnachfrage, 2. Verringertes Angebot, 3.. Rückgangsfaktoren umfassen: 1. Verringerte Marktnachfrage, 2. Erhöhtes Angebot, 3. Streik der negativen Nachrichten, 4. Pessimistische Marktstimmung, 5. makroökonomisches Umfeld.

So gewinnen Sie Kernel Airdrop -Belohnungen für Binance vollständige Prozessstrategie Apr 21, 2025 pm 01:03 PM

In der geschäftigen Welt der Kryptowährungen entstehen immer neue Möglichkeiten. Gegenwärtig zieht Kerneldao (Kernel) Airdrop -Aktivität viel Aufmerksamkeit auf sich und zieht die Aufmerksamkeit vieler Investoren auf sich. Also, was ist der Ursprung dieses Projekts? Welche Vorteile können BNB -Inhaber davon bekommen? Machen Sie sich keine Sorgen, das Folgende wird es einzeln für Sie enthüllen.

Aavenomics ist eine Empfehlung, das Aave -Protokoll -Token zu ändern und Token -Rückkauf einzuführen, die die Quorum -Anzahl von Personen erreicht hat. Apr 21, 2025 pm 06:24 PM

Aavenomics ist ein Vorschlag zur Änderung des Aave -Protokoll -Tokens und zur Einführung von Token -Repos, die ein Quorum für Aavedao implementiert hat. Marc Zeller, Gründer der AAVE -Projektkette (ACI), kündigte dies auf X an und stellte fest, dass sie eine neue Ära für die Vereinbarung markiert. Marc Zeller, Gründer der Aave Chain Initiative (ACI), kündigte auf X an, dass der Aavenomics -Vorschlag das Modifizieren des Aave -Protokoll -Tokens und die Einführung von Token -Repos umfasst, hat ein Quorum für Aavedao erreicht. Laut Zeller ist dies eine neue Ära für die Vereinbarung. AVEDAO -Mitglieder stimmten überwiegend für die Unterstützung des Vorschlags, der am Mittwoch 100 pro Woche betrug

See all articles