OpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルです-AI-php.cn

少し前まで、OpenAI Sora はその驚くべきビデオ生成効果で急速に人気を博し、他の Vincent ビデオモデルとの違いが強調され、世界的な注目を集めるようになりました。

2 週間前にコストを 46% 削減した Sora トレーニング推論再現プロセスの開始に続き、Colossal-AI チーム は世界初の Sora のようなアーキテクチャを完全にオープンソース化しました。ビデオ生成モデル「Open-Sora 1.0」——データ処理、すべてのトレーニングの詳細、モデルの重みを含む 全体のトレーニングプロセス をカバーし、世界中の AI 愛好家と連携します。ビデオ制作の新時代を促進します。

OpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルです

Open-Sora オープンソースアドレス: https://github.com/hpcaitech/Open-Sora

ちょっと覗いてみましょう。

Colossal-AI チームがリリースした「Open-Sora 1.0」モデルによって生成された賑やかな都市の様子を垣間見ることができるビデオを見てみましょう。

Open-Sora 1.0 によって生成された賑やかな都市のスナップショット

これは単なる氷山ですSora の再現テクノロジーのビデオのコーナーでは、Colossal-AI チームが

モデルアーキテクチャ、トレーニング済みモデルの重み、再現されたすべてのトレーニング詳細、データ前処理プロセス、デモ表示、詳細な実践チュートリアルへの無料アクセスを提供しています# Wensheng のビデオ ##。GitHub のオープンソース。 Xinzhiyuan はすぐにチームに連絡し、今後も Open-Sora 関連のソリューションと最新の開発内容を更新していく予定であることを知りました。興味のある友人は、Open-Sora のオープンソースコミュニティに注目してください。

#Sora 再発計画の包括的な解釈

次に、Sora 再発計画の複数の重要な側面を詳しく解釈します。モデルアーキテクチャの設計、トレーニング再現計画、データの前処理、モデル生成効果の表示、効率的なトレーニングの最適化戦略が含まれます。

モデルアーキテクチャ設計 OpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルです

モデルは現在普及している拡散トランス (DiT) [1] を採用しています。建築。

著者チームは、ベースとして DiT アーキテクチャも使用する高品質のオープンソースヴィンセントグラフモデル PixArt-α [2] を使用し、これに時間的注意層を導入しています。をベースにし、それをビデオデータに拡張します。

具体的には、アーキテクチャ全体には、事前トレーニングされた VAE、テキストエンコーダー、および時空間注意メカニズムを利用する STDiT (時空間拡散変換器) モデルが含まれています。

このうち、STDiT の各層の構造を下図に示します。シリアル手法を使用して、1 次元の時間的注意モジュールを 2 次元の空間的注意モジュールに重ねて、時間関係をモデル化します。

一時的アテンションモジュールの後、クロスアテンションモジュールを使用してテキストのセマンティクスを調整します。フルアテンションメカニズムと比較して、このような構造はトレーニングと推論のオーバーヘッドを大幅に削減します。

同様に時空間注意メカニズムを使用する Latte [3] モデルと比較して、STDiT は事前トレーニングされた画像 DiT の重みをより適切に利用できるため、ビデオのパフォーマンスが向上します。データ。トレーニングを続行します。

#STDiT 構造図

モデル全体のトレーニングと推論のプロセスは次のとおりです。トレーニング段階では、まず事前トレーニングされた変分オートエンコーダー (VAE) エンコーダーを使用してビデオデータを圧縮し、次に STDiT 拡散モデルが圧縮された潜在空間に埋め込まれたテキストとともにトレーニングされることが理解されています。

推論段階では、ガウスノイズが VAE の潜在空間からランダムにサンプリングされ、プロンプト埋め込みとともに STDiT に入力され、ノイズ除去された特徴が取得されます。 VAE デコーダに送信され、デコードされてビデオが取得されます。

#モデルトレーニングプロセス

トレーニング繰り返し計画

Open-Sora の再発計画は Stable Video Diffusion (SVD) [3] 作業に言及しており、次の 3 つの段階が含まれていることをチームから学びました:

#1。 -スケール画像事前トレーニング;

2. 大規模ビデオ事前トレーニング;

3. 高画質ビデオデータの微調整。

#各ステージでは、前のステージの重量に基づいてトレーニングが継続されます。ゼロからの単一ステージのトレーニングと比較して、マルチステージトレーニングでは、データを段階的に拡張することで、高品質のビデオ生成という目標をより効率的に達成します。

#トレーニング計画の 3 段階

第一段階: 大規模な画像の事前準備training

#最初の段階では、大規模な画像の事前トレーニングと成熟したヴィンセントグラフモデルを使用して、ビデオの事前トレーニングのコストを効果的に削減します。。

著者チームは、インターネット上の豊富で大規模な画像データと高度な文法技術を通じて、高品質の文法モデルを学習できることを明らかにしました。次の 1 段階ビデオ事前トレーニングの初期化重み。

同時に、現在高品質の時空間 VAE がないため、安定拡散 [5] モデルによって事前にトレーニングされた画像 VAE を使用しました。この戦略により、初期モデルの優れたパフォーマンスが保証されるだけでなく、ビデオの事前トレーニングにかかる全体的なコストも大幅に削減されます。

#第 2 段階: 大規模なビデオ事前トレーニング

第 2 段階では、大規模なビデオの事前トレーニングを実行して、モデルの汎化能力を高め、ビデオの時系列相関を効果的に把握します。

この段階では、ビデオテーマの多様性を確保し、それによってモデルの一般化能力を高めるためにトレーニングに大量のビデオデータを使用する必要があることを理解しています。第 2 段階のモデルは、ビデオ内の時間的関係を学習するために、第 1 段階のヴィンセントグラフモデルに時間的注意モジュールを追加します。

残りのモジュールは最初のステージと一致しており、初期化として最初のステージの重みをロードし、時間的注意モジュールの出力をゼロに初期化して、より効率的かつ高速な収束を実現します。

Colossal-AI チームは、第 2 段階の STDiT モデルの初期化として PixArt-alpha[2] のオープンソースの重みを使用し、テキストとして T5[6] モデルを使用しました。エンコーダ。同時に、事前トレーニングに 256x256 という小さな解像度を使用したため、収束速度がさらに向上し、トレーニングコストが削減されました。

#第 3 段階: 高品質ビデオデータの微調整

高品質ビデオデータの第 3 段階では、ビデオ生成の品質が大幅に向上するように微調整されます。

著者チームは、第 3 段階で使用されるビデオデータのサイズは第 2 段階に比べて 1 桁小さいと述べましたが、長さ、解像度、品質はビデオのほうが高いです。このように微調整することで、短いものから長いもの、低解像度から高解像度、低忠実度から高忠実度まで、ビデオ生成の効率的なスケーリングを実現しました。

著者チームは、Open-Sora の再現プロセスでトレーニングに 64 個の H800 ブロックを使用したと述べています。

第 2 段階の合計トレーニング量は 2,808 GPU 時間、つまり約 7,000 米ドルです。第 3 段階のトレーニング量は 1920 GPU 時間、つまり約 4500 米ドルです。予備的な見積もりの後、トレーニング計画全体は、Open-Sora の繁殖プロセスを約 10,000 米ドルに抑えることに成功しました。

データ前処理

Sora 再現のしきい値と複雑さをさらに軽減するために、Colossal-AI チームは便利なビデオデータも提供します。前処理スクリプトを使用すると、公開ビデオデータセットのダウンロード、ショットの連続性に基づいて長いビデオを短いビデオクリップに分割すること、オープンソースの大規模言語モデル LLaVA [7] を使用して詳細なプロンプトワードを生成することなど、Sora 再帰事前トレーニングを簡単に開始できます。

著者チームは、提供したバッチビデオタイトル生成コードはビデオに 2 枚のカードと 3 秒の注釈を付けることができ、品質は GPT-4V に近いと述べました。結果として得られるビデオとテキストのペアは、トレーニングに直接使用できます。

GitHub で提供されるオープンソースコードを使用すると、独自のデータセットでのトレーニングに必要なビデオとテキストのペアを簡単かつ迅速に生成できるため、Sora の起動の複雑さが大幅に軽減されます。現在のプロジェクトの技術的限界と事前準備。

#データ前処理スクリプトに基づいて自動生成されたビデオ/テキストのペア
モデル生成効果の表示
Open-Sora による実際のビデオ生成効果を見てみましょう。たとえば、崖の海岸の岩に打ち寄せる海水の航空映像を Open-Sora で生成してみましょう。

Open-Sora で、山々や崖から流れ落ち、最終的に湖に流れ込む滝の壮大な鳥瞰図を撮影しましょう。

空に行くだけでなく、海にも入ることができます。プロンプトを入力するだけで、Open-Sora が水中のショットを生成します。ショットでは、サンゴ礁にカメがいます。ゆっくりと航海します。

Open-Sora では、タイムラプス撮影を通じて星がきらめく天の川も見せてくれます。

ビデオ生成に関するさらに興味深いアイデアがある場合は、Open-Sora オープンソースコミュニティにアクセスして、無料体験としてモデルの重みを取得できます。

#リンク: https://github.com/hpcaitech/Open-Sora

作者チームが Github で、現在のバージョンでは 400K のトレーニングデータのみを使用しており、モデルの生成品質とテキストを追跡する能力を改善する必要があると述べたことは注目に値します。たとえば、上のカメのビデオでは、結果のカメに余分な足が付いています。 Open-Sora 1.0 は、ポートレートや複雑な画像の生成も苦手です。

著者チームは、既存の欠陥を継続的に解決し、製品の品質を向上させることを目的として、Github 上で実行される一連の計画をリストしました。

効率的なトレーニングのサポート

ソラ再現の技術的敷居を大幅に下げることに加えて、ビデオ生成の効率を向上再生時間、解像度、コンテンツなどの多次元の品質に関して、著者チームは、ソラ再現のトレーニングを効率的にサポートするための Colossal-AI アクセラレーションシステムも提供しました。

オペレーターの最適化やハイブリッド並列処理などの効率的なトレーニング戦略により、64 フレーム、解像度 512x512 のビデオ処理のトレーニングで 1.55 倍の高速化効果が達成されました。

同時に、Colossal-AI の異種メモリ管理システムのおかげで、1 分間の 1080p 高解像度ビデオトレーニングタスクを単一サーバー (8 x H800）。

さらに、著者チームのレポートでは、STDiT モデルアーキテクチャがトレーニング中に優れた効率を示していることもわかりました。

フルアテンションメカニズムを使用する DiT と比較して、STDiT はフレーム数の増加に応じて最大 5 倍の高速化効果を実現します。これは、長いビデオシーケンスの処理などの実際のタスクでは特に重要です。

Open-Sora モデルのビデオ生成効果の概要

Huan 引き続き Open-Sora オープンソースプロジェクトにご注目ください: https://github.com/hpcaitech/Open-Sora

##著者チームは、Open-Sora プロジェクトは引き続き維持および最適化され、より多くのビデオトレーニングデータを使用して高品質で長いビデオコンテンツを生成し、マルチ解像度機能をサポートして効果的にプロモーションすることが期待されていると述べました。 AI技術の映画やゲームへの応用、広告などへの実装。

以上がOpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。