中国の新しいAIビデオスター：Step-Video-T2V-AI-php.cn

中国は生成AIで急速に前進しており、言語モデルのDeepseekモデルやKimi K1.5などの成功に基づいています。現在、オムニフマンと悟空が3Dモデリングとビデオ統合に優れていることでビジョンドメインをリードしています。 Step-Video-T2Vにより、中国はSORA、VEO 2、StepFun AIによって開発された映画将軍のようなトップテキストからビデオへのトップからビデオへのモデルに直接挑戦します。Step-Video-T2Vは、高品質の204フレームビデオを生成する30Bパラメーターモデルです。ビデオVAE、バイリンガルエンコーダー、3DアテンションDITを活用して、新しいビデオ生成標準を設定します。テキストからビデオへの核となる課題に対処していますか？飛び込みましょう。

複雑なアクションシーケンス
- 現在のモデルは、体操選手のパフォーマンスのあるフリップやバスケットボールなど、複雑なアクションシーケンスに従う現実的なビデオを生成するのに苦労しています。
物理学と因果関係
次の指示

- モデルはユーザープロンプトの重要な詳細を頻繁に見逃します。特に、まれな概念（例えば、同じビデオのペンギンと象など）を扱う場合。

計算コスト

- 高解像度の長時間のビデオを生成することは、

非常にリソース集約的な

、研究者とクリエイターのアクセシビリティを制限しています。

- ビデオモデルは大規模なデータセットに依存していますが、ビデオキャプションが不十分な迅速な順守になります。

Step-Video-T2Vは、いくつかのイノベーション：でこれらの課題に取り組んでいます

深い圧縮ビデオvae ：16×16の空間および8倍の時間的圧縮を達成し、高いビデオ品質を維持しながら計算要件を大幅に削減します。バイリンガルテキストエンコーダー
hunyuan-clipとstep-llmを統合し、モデルが中国語と英語の両方でプロンプトを効果的に処理できるようにする。 3Dフルアテンションdit ：従来の空間的注意の代わりに、このアプローチは動きの連続性とシーンの一貫性を高めます
video-dpo（直接優先最適化）：人間のフィードバックループを組み込み、アーティファクトを減らし、リアリズムを改善し、生成されたコンテンツをユーザーの期待に合わせます。
Step-Video-T2Vモデルアーキテクチャは、テキストプロンプトを効果的に処理して高品質のビデオを生成するために、3部構成のパイプラインを中心に構成されています。このモデルは、バイリンガルテキストエンコーダー、変分自動エンコーダー（ビデオVAE）、および3Dの注意を払って拡散トランス（DIT）を統合し、従来のテキストからビデオへのモデルとは異なります。

入力段階では、Step-Video-T2Vが

2つの強力なバイリンガルテキストエンコーダーを採用しています。

HUNYUAN-CLIP 中国の新しいAIビデオスター：Step-Video-T2V ：テキストと画像の間のセマンティックアライメント

のために最適化されたビジョン言語モデル。

step-llm

：の両方で複雑な指示を理解することに特化した大規模な言語モデル。

これらのエンコーダーは

を処理し、意味のある潜在表現に変換し、モデルが指示に正確に従うことを確認します。 2。圧縮用の変分自動エンコーダー（ビデオvae）
でこの問題に取り組んでいます。 空間圧縮（16×16）および時間圧縮（8x）モーションの詳細を維持しながらビデオサイズを削減します。これにより、これにより、

以前のモデルよりも低い計算コスト 3。 3D完全な注意を払った拡散トランス（DIT）

ステップビデオ-T2Vのコアは、3D完全な注意を払った

拡散変圧器（DIT）

です。

中国の新しいAIビデオスター：Step-Video-T2V

ditのith blockは、ビデオ生成プロセスを改善する複数のコンポーネントで構成されています。各トランスブロックの重要なコンポーネント

Cross-Attention

テキストからビデオへのアライメントを確実に保証します。 自己attention（ロープ-3dを使用）：
を使用して、空間的理解を強化します。 qk-norm（query-key remormization）：注意メカニズムの安定性を改善し、オブジェクトの位置付けの矛盾を減らします。
：これらの適応ゲート情報の流れを調節し、特定のパターンへの過剰適合を防ぎ、一般化を改善します。
スケール/シフト操作：中間表現を正常化および微調整し、ビデオフレーム間のスムーズな遷移を確保します。 4。適応層の正規化（Adaln-Single） モデルには、
。に基づいてアクティベーションを動的に調整する

も含まれています。これにより、ビデオシーケンス全体で

時間的一貫性

が保証されます

step-video-t2vはどのように機能しますか？モデルは、テキストの説明に基づいて高品質のモーション豊富なビデオを生成する最先端のText-to-Video aiシステムです。作業メカニズムには、スムーズな動き、プロンプトへの順守、現実的な出力を確保するための複数の洗練されたAI技術が含まれます。段階的に分解しましょう：

1。ユーザー入力（テキストエンコーディング）

モデルは、ユーザー入力を処理するから始まります。これは、目的のビデオを説明するテキストプロンプトです。 これは、
（例えば、hunyuan-clipおよびstep-llm）。 バイリンガル能力
英語と中国語の両方のプロンプトが正確に理解できることを保証します。 2。潜在的な表現（ビデオvaeとの圧縮）

variational autoencoder（vae）

Video-Vaeの関数： ビデオフレームを低次元潜在スペースに圧縮し、計算コストを大幅に削減します
モーションの連続性、テクスチャ、オブジェクトの詳細など、キービデオの品質の側面を維持します。
- 16×16の空間および8倍の時間的圧縮を使用して、高忠実度を維持しながらモデルを効率的にします。
- 潜在的な表現を取得した後、次のステップはプロセスであり、ビデオフレームを改良します。これは、非常にリアルなビデオを生成するために設計された高度なモデルである
- を使用して行われます。キーイノベーション：

は、

は、の動きの一貫性を強化するのに役立ち、フレーム間で
4。最適化（微調整およびビデオDPOトレーニング）
- 生成されたビデオは最適化段階を受け、より正確で、一貫性があり、視覚的に魅力的なになります。これには次のことが含まれます 複雑なプロンプトに従う能力を向上させるために、高品質のデータを使用してモデルを微調整します。
- トレーニング。不要なアーティファクトを削減します。動きとテクスチャのリアリズムを改善します。
ビデオ生成をユーザーの期待に合わせる。

5。最終出力（高品質の204フレームビデオ）中国の新しいAIビデオスター：Step-Video-T2V

最終的なビデオは204フレームの長さです。つまり、ストーリーテリングの大幅な期間を提供します。高解像度の生成
は、鮮明なビジュアルとクリアオブジェクトのレンダリングを保証します
強い動きのリアリズムビデオが
滑らかで自然な動きを維持することを意味します
。競合他社に対するベンチマーク step-video-t2Vは、、a

128-promptベンチマーク
で評価されます
スポーツ、食事、風景、シュールレアリズム、人、アニメーション
主要なモデルと比較して、モーションダイナミクスとリアリズムで最新のパフォーマンスを提供します。 全体的なビデオ品質と滑らかさでhunyuanvideoを上回るライバルムービーGen Videoしかし、高品質のラベル付きデータが限られているため、きめ細かい審美性に遅れをとっています。
滑走路gen-3アルファ
動きの一貫性を叩きますが、映画の魅力ではわずかに遅れます。
挑戦中国のトップ商業モデル（T2VTOPAおよびT2VTOPB）
パフォーマンスメトリック
Step-Video-T2Vは、新しい評価基準を紹介します
：

次の
- 生成されたビデオがプロンプトとどれだけうまく合っているかを測定します。動きの滑らかさ
- ビデオ内のアクションの自然な流れを評価します。

物理的妥当性
- 動きが物理学の法則に従うかどうかを評価します。
審美的な魅力 - ビデオの芸術的で視覚的な品質を判断します。
人間の評価において、
Step-Video-T2Vは、動きの滑らかさと身体的妥当性で競合他社を常に上回り、最も高度なオープンソースモデルの1つになります。
step-video-t2vにアクセスする方法？
ステップ1：
ここの公式ウェブサイトにアクセスしてください。
ステップ2：
携帯電話番号を使用してサインアップします注：
現在、登録は限られた数の国に対してのみ開かれています。残念ながら、インドでは利用できないので、サインアップできませんでした。ただし、サポートされている地域にいる場合は試してみることができます。

ステップ3：
プロンプトを追加して、素晴らしいビデオの生成を開始します！

step-video-t2v
によって作成されたvidoesの例 このツールによって生成されたビデオを次に示します。私は彼らの公式サイトからこれらを取りました。

パリのゴッホ

プロンプト：“パリの路上で、ヴァンゴッホはカフェの外に座って、描画板を手にした夜のシーンを描いています。カメラはミディアムショットで撮影され、彼の集中的な表情と動きの速いブラシを示しています。背景にある街灯と歩行者は、浅い深さの深さを使用して彼のイメージを強調するために、わずかにぼやけています。時間が経つにつれて、空は夕暮れから夜に変わり、星は徐々に現れます。カメラはゆっくりと引き離して、彼の完成した作品と実際の夜のシーンの比較を確認します。
ミレニアムファルコンジャーニー
プロンプト：
“広大な宇宙では、スターウォーズのミレニアムファルコンが星を越えて移動しています。カメラは、宇宙船が遠い景色を眺めながら星の間を飛んでいることを示しています。カメラはすぐに宇宙船の軌跡をたどり、高速シャトルを示します。コックピットに入ると、このカメラは、楽器を神経質に操作しているハンソロとチューバッカの表情に焦点を当てています。ダッシュボードのライトはちらつき、背景の星空はすぐにポートホールの外を通り過ぎます。結論
Step-Video-T2Vはまだ中国以外では入手できません。公開されたら、レビューをテストして共有します。それでも、それは中国の生成的AIの大きな進歩を示しており、その研究室がOpenaiとDeepmindとともにマルチモーダルAIの未来を形作っていることを証明しています。ビデオ生成の次のステップでは、より良い指導のフォロー、物理シミュレーション、およびより豊富なデータセットが必要です。 Step-Video-T2Vは、オープンソースのビデオモデルへの道を開き、グローバルな研究者とクリエイターに力を与えます。中国のAIの勢いは、より現実的で効率的なテキストからビデオへの革新を示唆しています