中国は生成AIで急速に前進しており、言語モデルのDeepseekモデルやKimi K1.5などの成功に基づいています。現在、オムニフマンと悟空が3Dモデリングとビデオ統合に優れていることでビジョンドメインをリードしています。 Step-Video-T2Vにより、中国はSORA、VEO 2、StepFun AIによって開発された映画将軍のようなトップテキストからビデオへのトップからビデオへのモデルに直接挑戦します。Step-Video-T2Vは、高品質の204フレームビデオを生成する30Bパラメーターモデルです。ビデオVAE、バイリンガルエンコーダー、3DアテンションDITを活用して、新しいビデオ生成標準を設定します。テキストからビデオへの核となる課題に対処していますか?飛び込みましょう。
目次
- テキスト間モデルの課題
- step-video-t2Vはこれらの問題をどのように解決していますか? 3Dの完全な注意付きトランス(DIT)
最適化(微調整およびビデオ-DPOトレーニング)- 最終出力(高品質の204フレームビデオ)
-
-
競合他社に対するベンチマーク
テキストからビデオへのモデルの課題
テキストからビデオへのモデルは長い道のりを歩んできましたが、それでも根本的なハードルに直面しています:-
- 複雑なアクションシーケンス
- - 現在のモデルは、体操選手のパフォーマンスのあるフリップやバスケットボールなど、複雑なアクションシーケンスに従う現実的なビデオを生成するのに苦労しています。
- 物理学と因果関係
- ほとんどの拡散ベースのモデルは、現実の世界を効果的にシミュレートできません。オブジェクトの相互作用、重力、および物理的法則はしばしば見落とされがちです
- 次の指示
- モデルはユーザープロンプトの重要な詳細を頻繁に見逃します。特に、まれな概念(例えば、同じビデオのペンギンと象など)を扱う場合。
計算コスト - 高解像度の長時間のビデオを生成することは、非常にリソース集約的な、研究者とクリエイターのアクセシビリティを制限しています。
キャプションとアラインメント- - ビデオモデルは大規模なデータセットに依存していますが、ビデオキャプションが不十分な迅速な順守になります。
Step-Video-T2Vは、いくつかのイノベーション:でこれらの課題に取り組んでいます
- 深い圧縮ビデオvae :16×16の空間および8倍の時間的圧縮を達成し、高いビデオ品質を維持しながら計算要件を大幅に削減します。
バイリンガルテキストエンコーダー
:- hunyuan-clipとstep-llmを統合し、モデルが中国語と英語の両方でプロンプトを効果的に処理できるようにする。
3Dフルアテンションdit :従来の空間的注意の代わりに、このアプローチは動きの連続性とシーンの一貫性を高めます
。
-
video-dpo(直接優先最適化):人間のフィードバックループを組み込み、アーティファクトを減らし、リアリズムを改善し、生成されたコンテンツをユーザーの期待に合わせます。
モデルアーキテクチャ-
Step-Video-T2Vモデルアーキテクチャは、テキストプロンプトを効果的に処理して高品質のビデオを生成するために、3部構成のパイプラインを中心に構成されています。このモデルは、バイリンガルテキストエンコーダー、変分自動エンコーダー(ビデオVAE)、および3Dの注意を払って拡散トランス(DIT)を統合し、従来のテキストからビデオへのモデルとは異なります。
1。バイリンガルの理解でエンコードするテキスト
入力段階では、Step-Video-T2Vが
2つの強力なバイリンガルテキストエンコーダーを採用しています。
HUNYUAN-CLIP
:テキストと画像の間のセマンティックアライメント
のために最適化されたビジョン言語モデル。
step-llm :の両方で複雑な指示を理解することに特化した大規模な言語モデル。
これらのエンコーダーはユーザープロンプト- を処理し、意味のある潜在表現に変換し、モデルが指示に正確に従うことを確認します。
2。圧縮用の変分自動エンコーダー(ビデオvae)
長く高解像度のビデオを生成することは、計算的に高価です。 Step-Video-T2Vは、ビデオデータを効率的に削減する深い圧縮変動自動エンコーダー(ビデオvae)- でこの問題に取り組んでいます。
空間圧縮(16×16)および時間圧縮(8x)モーションの詳細を維持しながらビデオサイズを削減します。
これにより、これにより、
長いシーケンス(204フレーム)
以前のモデルよりも低い計算コスト
3。 3D完全な注意を払った拡散トランス(DIT)
ステップビデオ-T2Vのコアは、3D完全な注意を払った拡散変圧器(DIT)
です。 
ditのith blockは、ビデオ生成プロセスを改善する複数のコンポーネントで構成されています。
各トランスブロックの重要なコンポーネント
Cross-Attention :テキストの埋め込みで生成されたフレームを条件付けすることにより、- テキストからビデオへのアライメントを確実に保証します。
自己attention(ロープ-3dを使用):
回転位置エンコード(ロープ3d)- を使用して、空間的理解を強化します。
qk-norm(query-key remormization):注意メカニズムの安定性を改善し、オブジェクトの位置付けの矛盾を減らします。
ゲートメカニズム- :これらの適応ゲート情報の流れを調節し、特定のパターンへの過剰適合を防ぎ、一般化を改善します。
- スケール/シフト操作:中間表現を正常化および微調整し、ビデオフレーム間のスムーズな遷移を確保します。
4。適応層の正規化(Adaln-Single)
モデルには、
タイムステップ(t)- 。に基づいてアクティベーションを動的に調整する
適応レイヤー正規化(adaln-single)
も含まれています。
これにより、ビデオシーケンス全体で時間的一貫性
が保証されます
- step-video-t2vはどのように機能しますか?
モデルは、テキストの説明に基づいて高品質のモーション豊富なビデオを生成する最先端のText-to-Video aiシステムです。作業メカニズムには、スムーズな動き、プロンプトへの順守、現実的な出力を確保するための複数の洗練されたAI技術が含まれます。段階的に分解しましょう:
1。ユーザー入力(テキストエンコーディング)
- モデルは、ユーザー入力を処理するから始まります。これは、目的のビデオを説明するテキストプロンプトです。
これは、
バイリンガルテキストエンコーダーを使用して行われます- (例えば、hunyuan-clipおよびstep-llm)。
バイリンガル能力
- 英語と中国語の両方のプロンプトが正確に理解できることを保証します。
2。潜在的な表現(ビデオvaeとの圧縮)
ビデオ生成は計算的に重いため、モデルは
ビデオ圧縮に特化した variational autoencoder(vae)
を採用しています。
- Video-Vaeの関数:
ビデオフレームを低次元潜在スペースに圧縮し、計算コストを大幅に削減します
。
-
モーションの連続性、テクスチャ、オブジェクトの詳細など、キービデオの品質の側面を維持します。
a- 16×16の空間および8倍の時間的圧縮を使用して、高忠実度を維持しながらモデルを効率的にします。
3。除去プロセス(3D完全な注意を払う拡散トランス)-
潜在的な表現を取得した後、次のステップはプロセスであり、ビデオフレームを改良します。
これは、非常にリアルなビデオを生成するために設計された高度なモデルである
拡散変圧器(DIT)- を使用して行われます。
キーイノベーション:
拡散変圧器は、
3D完全な注意を適用します。
フローマッチングの使用- は、の動きの一貫性を強化するのに役立ち、フレーム間で
-
- 4。最適化(微調整およびビデオDPOトレーニング)
-
生成されたビデオは最適化段階を受け、より正確で、一貫性があり、視覚的に魅力的なになります。これには次のことが含まれます
複雑なプロンプトに従う能力を向上させるために、高品質のデータを使用してモデルを微調整します。
video-dpo(直接優先最適化)- トレーニング。
不要なアーティファクトを削減します。
動きとテクスチャのリアリズムを改善します。
ビデオ生成をユーザーの期待に合わせる。
5。最終出力(高品質の204フレームビデオ)
- 最終的なビデオは204フレームの長さです。つまり、ストーリーテリングの大幅な期間を提供します。
高解像度の生成
は、鮮明なビジュアルとクリアオブジェクトのレンダリングを保証します
-
強い動きのリアリズムビデオが
滑らかで自然な動きを維持することを意味します- 。
競合他社に対するベンチマーク
step-video-t2Vは、、a
128-promptベンチマークで評価されます
スポーツ、食事、風景、シュールレアリズム、人、アニメーション主要なモデルと比較して、モーションダイナミクスとリアリズムで最新のパフォーマンスを提供します。
全体的なビデオ品質と滑らかさでhunyuanvideoを上回る
ライバルムービーGen Videoしかし、高品質のラベル付きデータが限られているため、きめ細かい審美性に遅れをとっています。
滑走路gen-3アルファ動きの一貫性を叩きますが、映画の魅力ではわずかに遅れます。
- 挑戦中国のトップ商業モデル(T2VTOPAおよびT2VTOPB)
パフォーマンスメトリック-
Step-Video-T2Vは、新しい評価基準を紹介します
:-
次の- - 生成されたビデオがプロンプトとどれだけうまく合っているかを測定します。
動きの滑らかさ
- ビデオ内のアクションの自然な流れを評価します。
物理的妥当性
- 動きが物理学の法則に従うかどうかを評価します。
審美的な魅力 - ビデオの芸術的で視覚的な品質を判断します。
人間の評価において、Step-Video-T2Vは、動きの滑らかさと身体的妥当性で競合他社を常に上回り、最も高度なオープンソースモデルの1つになります。
- step-video-t2vにアクセスする方法?
ステップ1:- ここの公式ウェブサイトにアクセスしてください。
ステップ2:- 携帯電話番号を使用してサインアップします
注:
現在、登録は限られた数の国に対してのみ開かれています。残念ながら、インドでは利用できないので、サインアップできませんでした。ただし、サポートされている地域にいる場合は試してみることができます。
-
ステップ3:プロンプトを追加して、素晴らしいビデオの生成を開始します!
step-video-t2vによって作成されたvidoesの例
このツールによって生成されたビデオを次に示します。私は彼らの公式サイトからこれらを取りました。
パリのゴッホ
プロンプト:“パリの路上で、ヴァンゴッホはカフェの外に座って、描画板を手にした夜のシーンを描いています。カメラはミディアムショットで撮影され、彼の集中的な表情と動きの速いブラシを示しています。背景にある街灯と歩行者は、浅い深さの深さを使用して彼のイメージを強調するために、わずかにぼやけています。時間が経つにつれて、空は夕暮れから夜に変わり、星は徐々に現れます。カメラはゆっくりと引き離して、彼の完成した作品と実際の夜のシーンの比較を確認します。
プロンプト:“広大な宇宙では、スターウォーズのミレニアムファルコンが星を越えて移動しています。カメラは、宇宙船が遠い景色を眺めながら星の間を飛んでいることを示しています。カメラはすぐに宇宙船の軌跡をたどり、高速シャトルを示します。コックピットに入ると、このカメラは、楽器を神経質に操作しているハンソロとチューバッカの表情に焦点を当てています。ダッシュボードのライトはちらつき、背景の星空はすぐにポートホールの外を通り過ぎます。
結論
以上が中国の新しいAIビデオスター:Step-Video-T2Vの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。