ホームページ > テクノロジー周辺機器 > AI > OpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルです

OpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルです

WBOY
リリース: 2024-03-19 09:00:04
転載
812 人が閲覧しました

少し前まで、OpenAI Sora はその驚くべきビデオ生成効果で急速に人気を博し、他の Vincent ビデオ モデルとの違いが強調され、世界的な注目を集めるようになりました。

2 週間前にコストを 46% 削減した Sora トレーニング推論再現プロセスの開始に続き、Colossal-AI チーム は世界初の Sora のようなアーキテクチャを完全にオープンソース化しました。ビデオ生成モデル「Open-Sora 1.0」——データ処理、すべてのトレーニングの詳細、モデルの重みを含む 全体のトレーニング プロセス をカバーし、世界中の AI 愛好家と連携します。ビデオ制作の新時代を促進します。

OpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルです

Open-Sora オープンソース アドレス: https://github.com/hpcaitech/Open-Sora

ちょっと覗いてみましょう。

Colossal-AI チーム がリリースした「Open-Sora 1.0」モデルによって生成された賑やかな都市の様子を垣間見ることができるビデオを見てみましょう。

OpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルです

Open-Sora 1.0 によって生成された賑やかな都市のスナップショット

これは単なる氷山ですSora の再現テクノロジーのビデオのコーナーでは、Colossal-AI チームが

モデル アーキテクチャ、トレーニング済みモデルの重み、再現されたすべてのトレーニング詳細、データ前処理プロセス、デモ表示、詳細な実践チュートリアルへの無料アクセスを提供しています# Wensheng のビデオ ##。GitHub のオープン ソース。 Xinzhiyuan はすぐにチームに連絡し、今後も Open-Sora 関連のソリューションと最新の開発内容を更新していく予定であることを知りました。興味のある友人は、Open-Sora のオープンソース コミュニティに注目してください。

#Sora 再発計画の包括的な解釈

OpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルです

次に、Sora 再発計画の複数の重要な側面を詳しく解釈します。モデル アーキテクチャの設計、トレーニング再現計画、データの前処理、モデル生成効果の表示、効率的なトレーニングの最適化戦略が含まれます。

モデル アーキテクチャ設計OpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルです

モデルは現在普及している拡散トランス (DiT) [1] を採用しています。建築。

著者チームは、ベースとして DiT アーキテクチャも使用する高品質のオープンソース ヴィンセント グラフ モデル PixArt-α [2] を使用し、これに時間的注意層を導入しています。をベースにし、それをビデオデータに拡張します。

具体的には、アーキテクチャ全体には、事前トレーニングされた VAE、テキスト エンコーダー、および時空間注意メカニズムを利用する STDiT (時空間拡散変換器) モデルが含まれています。

このうち、STDiT の各層の構造を下図に示します。シリアル手法を使用して、1 次元の時間的注意モジュールを 2 次元の空間的注意モジュールに重ねて、時間関係をモデル化します。

一時的アテンション モジュールの後、クロス アテンション モジュールを使用してテキストのセマンティクスを調整します。フル アテンション メカニズムと比較して、このような構造はトレーニングと推論のオーバーヘッドを大幅に削減します。

同様に時空間注意メカニズムを使用する Latte [3] モデルと比較して、STDiT は事前トレーニングされた画像 DiT の重みをより適切に利用できるため、ビデオのパフォーマンスが向上します。データ。トレーニングを続行します。

OpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルです

#STDiT 構造図

モデル全体のトレーニングと推論のプロセスは次のとおりです。トレーニング段階では、まず事前トレーニングされた変分オートエンコーダー (VAE) エンコーダーを使用してビデオ データを圧縮し、次に STDiT 拡散モデルが圧縮された潜在空間に埋め込まれたテキストとともにトレーニングされることが理解されています。

推論段階では、ガウス ノイズが VAE の潜在空間からランダムにサンプリングされ、プロンプト埋め込みとともに STDiT に入力され、ノイズ除去された特徴が取得されます。 VAE デコーダに送信され、デコードされてビデオが取得されます。

OpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルです

#モデル トレーニング プロセス

トレーニング繰り返し計画

Open-Sora の再発計画は Stable Video Diffusion (SVD) [3] 作業に言及しており、次の 3 つの段階が含まれていることをチームから学びました:

#1。 -スケール画像事前トレーニング;

2. 大規模ビデオ事前トレーニング;

3. 高画質ビデオデータの微調整。

#各ステージでは、前のステージの重量に基づいてトレーニングが継続されます。ゼロからの単一ステージのトレーニングと比較して、マルチステージ トレーニングでは、データを段階的に拡張することで、高品質のビデオ生成という目標をより効率的に達成します。

#トレーニング計画の 3 段階

OpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルです

第一段階: 大規模な画像の事前準備training

#最初の段階では、大規模な画像の事前トレーニングと成熟したヴィンセント グラフ モデルを使用して、ビデオの事前トレーニングのコストを効果的に削減します。 。

著者チームは、インターネット上の豊富で大規模な画像データと高度な文法技術を通じて、高品質の文法モデルを学習できることを明らかにしました。次の 1 段階ビデオ事前トレーニングの初期化重み。

同時に、現在高品質の時空間 VAE がないため、安定拡散 [5] モデルによって事前にトレーニングされた画像 VAE を使用しました。この戦略により、初期モデルの優れたパフォーマンスが保証されるだけでなく、ビデオの事前トレーニングにかかる​​全体的なコストも大幅に削減されます。

#第 2 段階: 大規模なビデオ事前トレーニング

第 2 段階では、大規模なビデオの事前トレーニングを実行して、モデルの汎化能力を高め、ビデオの時系列相関を効果的に把握します。

この段階では、ビデオテーマの多様性を確保し、それによってモデルの一般化能力を高めるためにトレーニングに大量のビデオデータを使用する必要があることを理解しています。第 2 段階のモデルは、ビデオ内の時間的関係を学習するために、第 1 段階のヴィンセント グラフ モデルに時間的注意モジュールを追加します。

残りのモジュールは最初のステージと一致しており、初期化として最初のステージの重みをロードし、時間的注意モジュールの出力をゼロに初期化して、より効率的かつ高速な収束を実現します。

Colossal-AI チームは、第 2 段階の STDiT モデルの初期化として PixArt-alpha[2] のオープンソースの重みを使用し、テキストとして T5[6] モデルを使用しました。エンコーダ。同時に、事前トレーニングに 256x256 という小さな解像度を使用したため、収束速度がさらに向上し、トレーニング コストが削減されました。

#第 3 段階: 高品質ビデオ データの微調整

高品質ビデオ データの第 3 段階では、ビデオ生成の品質が大幅に向上するように微調整されます。

著者チームは、第 3 段階で使用されるビデオ データのサイズは第 2 段階に比べて 1 桁小さいと述べましたが、長さ、解像度、品質はビデオのほうが高いです。このように微調整することで、短いものから長いもの、低解像度から高解像度、低忠実度から高忠実度まで、ビデオ生成の効率的なスケーリングを実現しました。

著者チームは、Open-Sora の再現プロセスでトレーニングに 64 個の H800 ブロックを使用したと述べています。

第 2 段階の合計トレーニング量は 2,808 GPU 時間、つまり約 7,000 米ドルです。第 3 段階のトレーニング量は 1920 GPU 時間、つまり約 4500 米ドルです。予備的な見積もりの​​後、トレーニング計画全体は、Open-Sora の繁殖プロセスを約 10,000 米ドルに抑えることに成功しました。

データ前処理

Sora 再現のしきい値と複雑さをさらに軽減するために、Colossal-AI チームは便利なビデオ データも提供します。前処理スクリプトを使用すると、公開ビデオ データ セットのダウンロード、ショットの連続性に基づいて長いビデオを短いビデオ クリップに分割すること、オープン ソースの大規模言語モデル LLaVA [7] を使用して詳細なプロンプト ワードを生成することなど、Sora 再帰事前トレーニングを簡単に開始できます。

著者チームは、提供したバッチビデオタイトル生成コードはビデオに 2 枚のカードと 3 秒の注釈を付けることができ、品質は GPT-4V に近いと述べました。結果として得られるビデオとテキストのペアは、トレーニングに直接使用できます。

GitHub で提供されるオープン ソース コードを使用すると、独自のデータセットでのトレーニングに必要なビデオとテキストのペアを簡単かつ迅速に生成できるため、Sora の起動の複雑さが大幅に軽減されます。現在のプロジェクトの技術的限界と事前準備。

OpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルです

#データ前処理スクリプトに基づいて自動生成されたビデオ/テキストのペア

モデル生成効果の表示

Open-Sora による実際のビデオ生成効果を見てみましょう。たとえば、崖の海岸の岩に打ち寄せる海水の航空映像を Open-Sora で生成してみましょう。

OpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルです

Open-Sora で、山々や崖から流れ落ち、最終的に湖に流れ込む滝の壮大な鳥瞰図を撮影しましょう。

OpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルです

空に行くだけでなく、海にも入ることができます。プロンプトを入力するだけで、Open-Sora が水中のショットを生成します。ショットでは、サンゴ礁にカメがいます。ゆっくりと航海します。

OpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルです

Open-Sora では、タイムラプス撮影を通じて星がきらめく天の川も見せてくれます。

OpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルです

ビデオ生成に関するさらに興味深いアイデアがある場合は、Open-Sora オープン ソース コミュニティにアクセスして、無料体験としてモデルの重みを取得できます。

#リンク: https://github.com/hpcaitech/Open-Sora

作者チームが Github で、現在のバージョンでは 400K のトレーニング データのみを使用しており、モデルの生成品質とテキストを追跡する能力を改善する必要があると述べたことは注目に値します。たとえば、上のカメのビデオでは、結果のカメに余分な足が付いています。 Open-Sora 1.0 は、ポートレートや複雑な画像の生成も苦手です。

著者チームは、既存の欠陥を継続的に解決し、製品の品質を向上させることを目的として、Github 上で実行される一連の計画をリストしました。

OpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルです

効率的なトレーニングのサポート

ソラ再現の技術的敷居を大幅に下げることに加えて、ビデオ生成の効率を向上 再生時間、解像度、コンテンツなどの多次元の品質に関して、著者チームは、ソラ再現のトレーニングを効率的にサポートするための Colossal-AI アクセラレーション システムも提供しました。

オペレーターの最適化やハイブリッド並列処理などの効率的なトレーニング戦略により、64 フレーム、解像度 512x512 のビデオ処理のトレーニングで 1.55 倍の高速化効果が達成されました。

同時に、Colossal-AI の異種メモリ管理システムのおかげで、1 分間の 1080p 高解像度ビデオ トレーニング タスクを単一サーバー (8 x H800)。

OpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルです

さらに、著者チームのレポートでは、STDiT モデル アーキテクチャがトレーニング中に優れた効率を示していることもわかりました。

フル アテンション メカニズムを使用する DiT と比較して、STDiT はフレーム数の増加に応じて最大 5 倍の高速化効果を実現します。これは、長いビデオ シーケンスの処理などの実際のタスクでは特に重要です。

OpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルです

Open-Sora モデルのビデオ生成効果の概要

Huan 引き続き Open-Sora オープン ソース プロジェクトにご注目ください: https://github.com/hpcaitech/Open-Sora

##著者チームは、Open-Sora プロジェクトは引き続き維持および最適化され、より多くのビデオ トレーニング データを使用して高品質で長いビデオ コンテンツを生成し、マルチ解像度機能をサポートして効果的にプロモーションすることが期待されていると述べました。 AI技術の映画やゲームへの応用、広告などへの実装。

以上がOpenAI を待つ必要はありません。世界初の Sora のようなものは、最初にオープンソースです。すべてのトレーニングの詳細とモデルの重みは完全に公開されており、費用はわずか 10,000 ドルですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート