目次
実験
ホームページ テクノロジー周辺機器 AI 2 分、1200 フレームの長いビデオ ジェネレーターである StreamingT2V が登場し、コードはオープンソースになります

2 分、1200 フレームの長いビデオ ジェネレーターである StreamingT2V が登場し、コードはオープンソースになります

Mar 27, 2024 pm 03:17 PM
ai 電車

戦場のワイドショット、走っているストームトルーパー...

2 分、1200 フレームの長いビデオ ジェネレーターである StreamingT2V が登場し、コードはオープンソースになります

プロンプト: 戦場のワイドショット、走っているストームトルーパー...

1,200 フレームを含むこの 2 分間のビデオは、テキストからビデオへのモデルによって生成されました。 AI の痕跡はまだ明らかですが、キャラクターとシーンは非常に良好な一貫性を示しています。

これはどのように行われるのでしょうか? Vincent ビデオ テクノロジの生成品質とテキスト配置の品質は近年非常に優れていますが、既存のほとんどの方法は短いビデオ (通常は 16 フレームまたは 24 フレームの長さ) を生成することに焦点を当てていることを知っておく必要があります。ただし、短いビデオでは機能する既存の方法は、長いビデオ (64 フレーム以上) では機能しないことがよくあります。

短いシーケンスを生成する場合でも、260K を超えるトレーニング ステップや 4500 を超えるバッチ サイズなど、高価なトレーニングが必要になることがよくあります。長いビデオでトレーニングせず、短いビデオ ジェネレーターを使用して長いビデオを作成すると、結果として得られる長いビデオの品質が低下することがよくあります。既存の自己回帰手法(短いビデオの最後の数フレームを使用して新しい短いビデオを生成し、その後長いビデオを合成する)にも、シーンの切り替えが一貫しないなどのいくつかの問題があります。

既存の手法の欠点を補うために、Picsart AI Research と他の機関は共同で新しい Vincent ビデオ手法 StreamingT2V を提案しました。この方法では、自己回帰技術を使用し、長期短期記憶モジュールと組み合わせることで、強い時間的コヒーレンスを備えた長いビデオを生成できます。

2 分、1200 フレームの長いビデオ ジェネレーターである StreamingT2V が登場し、コードはオープンソースになります

  • #論文タイトル: StreamingT2V: テキストからの一貫性、動的、拡張可能な長時間ビデオ生成
  • 論文アドレス: https://arxiv.org/abs/2403.14773
  • プロジェクトアドレス: https://streamingt2v.github.io/

次は 600 フレームの 1 分間のビデオ生成結果です。ミツバチと花が優れた一貫性を持っていることがわかります:

したがって、チームは条件アテンションモジュール (CAM)。 CAM は、アテンション メカニズムを使用して、以前のフレームからの情報を効果的に統合して新しいフレームを生成し、以前のフレームの構造や形状に制限されることなく、新しいフレームの動きを自由に処理できます。

生成されたビデオ内の人物やオブジェクトの外観変更の問題を解決するために、チームは外観保存モジュール (APM) も提案しました。これは、初期画像から開始できます (アンカー フレーム) オブジェクトまたはグローバル シーンの外観情報を抽出し、この情報を使用してすべてのビデオ パッチのビデオ生成プロセスを調整します。

長いビデオ生成の品質と解像度をさらに向上させるために、チームは自己回帰生成タスクのビデオ拡張モデルを改良しました。これを行うために、チームは高解像度の Vincent ビデオ モデルを選択し、SDEdit メソッドを使用して 24 の連続ビデオ ブロック (8 つのオーバーラップ フレームを含む) の品質を向上させました。

ビデオ ブロックのエンハンスメントの移行をスムーズにするために、重複するエンハンスド ビデオ ブロックをシームレスにブレンドするランダム ブレンディング方法も設計しました。

方法

まず、5 秒間の 256 × 256 解像度のビデオ (16fps) を生成し、それをより高い解像度 (720 × 720)。図 2 は、その完全なワークフローを示しています。

2 分、1200 フレームの長いビデオ ジェネレーターである StreamingT2V が登場し、コードはオープンソースになります

長いビデオの生成部分は、初期化ステージとストリーミング T2V ステージで構成されます。

その中で、初期化段階では、事前トレーニングされた Vincent ビデオ モデル (たとえば、Modelscope を使用できます) を使用して、最初の 16 フレームのビデオ ブロックを生成します。 Vincent ビデオ ステージは、自己回帰方式で後続のフレームの新しいコンテンツを生成します。

自己回帰プロセス (図 3 を参照) の場合、チームが新たに提案した CAM は、前のビデオ ブロックの最後の 8 フレームの短期情報を利用して、ブロック間のシームレスな切り替えを実現できます。 。さらに、新しく提案されたAPMモジュールを使用して固定アンカーフレームの長期情報を抽出し、生成プロセス中の物事やシーンの詳細の変化に自己回帰プロセスがロバストに対応できるようにします。

2 分、1200 フレームの長いビデオ ジェネレーターである StreamingT2V が登場し、コードはオープンソースになります

長いビデオ (80、240、600、1200 フレーム以上) を生成した後、ストリーミング調整ステージのビデオ品質を向上させます。このプロセスでは、高解像度の Vison ショート ビデオ モデル (MS-Vid2Vid-XL など) を自己回帰方式で使用し、シームレスなビデオ ブロック処理のために新しく提案された確率的混合方法と組み合わせます。さらに、後者のステップでは追加のトレーニングが必要ないため、この方法の計算コストが低くなります。

条件付き注意モジュール

まず、事前トレーニング済みテキスト (短い) を使用します。ビデオ モデルは Video-LDM として表されます。アテンション モジュール (CAM) は、Video-LDM UNet に挿入される特徴エクストラクターと特徴インジェクターで構成されます。

特徴抽出器は、フレームごとの画像エンコーダーを使用し、その後、中間層まで Video-LDM UNet で使用されるのと同じエンコーダー層を使用します (UNet の重みによって初期化されます)。 。

機能注入の場合、ここでの設計は、UNet の各長距離ジャンプ接続が、クロス アテンションを通じて CAM によって生成された対応する機能に焦点を当てるようにすることです。

外観保持モジュール

APM モジュールはアンカー フレーム内の情報を修正できます。を使用して長期記憶をビデオ生成プロセスに統合します。これは、ビデオ パッチの生成中にシーンとオブジェクトの特性を維持するのに役立ちます。

APM がアンカー フレームとテキスト命令によって与えられるガイダンス情報の処理のバランスを取れるようにするために、チームは 2 つの改善を行いました: (1) アンカーの CLIP 画像トークンを結合するテキストを含むフレーム 命令の CLIP テキスト トークンが混合されます; (2) クロスアテンションを使用するために、各クロスアテンション レイヤーに重みが導入されます。

自動回帰ビデオ強化

生成された 24 フレームのビデオ ブロックを自己回帰的に強化するために、ここでは高解像度を使用します。 (1280x720) Vincent (ショート) ビデオ モデル (Refiner Video-LDM、図 3 を参照)。この処理は、まず入力ビデオ ブロックに大量のノイズを追加し、次にこの Vincent ビデオ拡散モデルを使用してノイズ除去処理を実行します。

しかし、この方法はビデオ ブロック間のトランジションの不一致の問題を解決するには十分ではありません。

この目的を達成するために、チームのソリューションはランダム ハイブリッド アプローチです。具体的な詳細については、元の論文を参照してください。

実験

実験でチームが使用した評価指標には、時間的一貫性を評価するための SCuts スコア、モーションを意識したツイスト エラーが含まれます。 (MAWE) は動きとツイスト エラーの量、CLIP テキストと画像の類似性スコア (CLIP) はテキストの配置品質を評価し、美的スコア (AE) を評価します。

アブレーション研究

さまざまな新しいコンポーネントの有効性を評価するために、アブレーション チームは研究は、検証セットからランダムに抽出された 75 個のプロンプトに対して実行されました。

条件付き処理用の CAM: CAM は、モデルがより一貫性のあるビデオを生成するのに役立ち、比較すると、SCuts スコアは他のベースライン モデルより 88% 低くなります。

長期記憶: 図 6 は、長期記憶が自己回帰生成プロセス中にオブジェクトやシーンの特性の安定性を維持するのに大きく役立つことを示しています。

2 分、1200 フレームの長いビデオ ジェネレーターである StreamingT2V が登場し、コードはオープンソースになります

定量的な評価指標 (人物再識別スコア) では、APM は 20% の改善を達成しました。

ビデオ強化のためのランダム ミキシング: 他の 2 つのベンチマークと比較して、ランダム ミキシングは品質を大幅に向上させることができます。これは、図 4: StreamingT2V でよりスムーズなトランジションが得られることからもわかります。

2 分、1200 フレームの長いビデオ ジェネレーターである StreamingT2V が登場し、コードはオープンソースになります

StreamingT2V とベースライン モデルの比較

##チームは、画像からビデオへの手法 I2VGen-XL、SVD、DynamiCrafter-XL、自己回帰手法を使用した SEINE、ビデオ to -ビデオ メソッド SparseControl、およびテキストから長いビデオ MethodFreeNoise。

定量的評価: 表 8 からわかるように、テスト セットの定量的評価は、StreamingT2V がシームレスなビデオ ブロックの遷移とモーションの一貫性の点で最高のパフォーマンスを発揮することを示しています。新しいメソッドの MAWE スコアも他のすべてのメソッドよりも大幅に優れており、2 番目に優れた SEINE よりも 50% 以上低いです。同様の動作が SCuts スコアでも見られます。

2 分、1200 フレームの長いビデオ ジェネレーターである StreamingT2V が登場し、コードはオープンソースになります

さらに、StreamingT2V は、生成されるビデオの単一フレーム品質の点で SparseCtrl よりわずかに劣るだけです。これは、この新しい方法が他の比較方法よりも優れた時間的一貫性とモーション ダイナミクスを備えた高品質の長時間ビデオを生成できることを示しています。

定性的評価: 次の図は、StreamingT2V と他の方式の効果を比較したもので、新しい方式の方がビデオの動的な効果を確保しながら、より高い一貫性を維持できることがわかります。 。

2 分、1200 フレームの長いビデオ ジェネレーターである StreamingT2V が登場し、コードはオープンソースになります

研究の詳細については、元の論文を参照してください。

以上が2 分、1200 フレームの長いビデオ ジェネレーターである StreamingT2V が登場し、コードはオープンソースになりますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

vue.jsのストリングをオブジェクトに変換するためにどのような方法が使用されますか? vue.jsのストリングをオブジェクトに変換するためにどのような方法が使用されますか? Apr 07, 2025 pm 09:39 PM

vue.jsのオブジェクトに文字列を変換する場合、標準のjson文字列にはjson.parse()が推奨されます。非標準のJSON文字列の場合、文字列は正規表現を使用して処理し、フォーマットまたはデコードされたURLエンコードに従ってメソッドを削減できます。文字列形式に従って適切な方法を選択し、バグを避けるためにセキュリティとエンコードの問題に注意してください。

vue.js文字列タイプの配列をオブジェクトの配列に変換する方法は? vue.js文字列タイプの配列をオブジェクトの配列に変換する方法は? Apr 07, 2025 pm 09:36 PM

概要:Vue.js文字列配列をオブジェクト配列に変換するための次の方法があります。基本方法:定期的なフォーマットデータに合わせてマップ関数を使用します。高度なゲームプレイ:正規表現を使用すると、複雑な形式を処理できますが、慎重に記述して考慮する必要があります。パフォーマンスの最適化:大量のデータを考慮すると、非同期操作または効率的なデータ処理ライブラリを使用できます。ベストプラクティス:コードスタイルをクリアし、意味のある変数名とコメントを使用して、コードを簡潔に保ちます。

インストール後にMySQLの使用方法 インストール後にMySQLの使用方法 Apr 08, 2025 am 11:48 AM

この記事では、MySQLデータベースの操作を紹介します。まず、MySQLWorkBenchやコマンドラインクライアントなど、MySQLクライアントをインストールする必要があります。 1. mysql-uroot-pコマンドを使用してサーバーに接続し、ルートアカウントパスワードでログインします。 2。CreatedAtaBaseを使用してデータベースを作成し、データベースを選択します。 3. createTableを使用してテーブルを作成し、フィールドとデータ型を定義します。 4. INSERTINTOを使用してデータを挿入し、データをクエリし、更新することでデータを更新し、削除してデータを削除します。これらの手順を習得することによってのみ、一般的な問題に対処することを学び、データベースのパフォーマンスを最適化することでMySQLを効率的に使用できます。

MySQLを解決する方法は開始できません MySQLを解決する方法は開始できません Apr 08, 2025 pm 02:21 PM

MySQLの起動が失敗する理由はたくさんあり、エラーログをチェックすることで診断できます。一般的な原因には、ポートの競合(ポート占有率をチェックして構成の変更)、許可の問題(ユーザー許可を実行するサービスを確認)、構成ファイルエラー(パラメーター設定のチェック)、データディレクトリの破損(テーブルスペースの復元)、INNODBテーブルスペースの問題(IBDATA1ファイルのチェック)、プラグインロード障害(エラーログのチェック)が含まれます。問題を解決するときは、エラーログに基づいてそれらを分析し、問題の根本原因を見つけ、問題を防ぐために定期的にデータをバックアップする習慣を開発する必要があります。

Vue Axiosのタイムアウトを設定する方法 Vue Axiosのタイムアウトを設定する方法 Apr 07, 2025 pm 10:03 PM

Vue axiosのタイムアウトを設定するために、Axiosインスタンスを作成してタイムアウトオプションを指定できます。グローバル設定:Vue.Prototype。$ axios = axios.create({Timeout:5000});単一のリクエストで:this。$ axios.get( '/api/users'、{timeout:10000})。

Laravelの地理空間:インタラクティブマップと大量のデータの最適化 Laravelの地理空間:インタラクティブマップと大量のデータの最適化 Apr 08, 2025 pm 12:24 PM

700万のレコードを効率的に処理し、地理空間技術を使用したインタラクティブマップを作成します。この記事では、LaravelとMySQLを使用して700万を超えるレコードを効率的に処理し、それらをインタラクティブなマップの視覚化に変換する方法について説明します。最初の課題プロジェクトの要件:MySQLデータベースに700万のレコードを使用して貴重な洞察を抽出します。多くの人は最初に言語をプログラミングすることを検討しますが、データベース自体を無視します。ニーズを満たすことができますか?データ移行または構造調​​整は必要ですか? MySQLはこのような大きなデータ負荷に耐えることができますか?予備分析:キーフィルターとプロパティを特定する必要があります。分析後、ソリューションに関連している属性はわずかであることがわかりました。フィルターの実現可能性を確認し、検索を最適化するためにいくつかの制限を設定しました。都市に基づくマップ検索

リモートシニアバックエンジニア(プラットフォーム)がサークルが必要です リモートシニアバックエンジニア(プラットフォーム)がサークルが必要です Apr 08, 2025 pm 12:27 PM

リモートシニアバックエンジニアの求人事業者:サークル場所:リモートオフィスジョブタイプ:フルタイム給与:$ 130,000- $ 140,000職務記述書サークルモバイルアプリケーションとパブリックAPI関連機能の研究開発に参加します。ソフトウェア開発ライフサイクル全体をカバーします。主な責任は、RubyonRailsに基づいて独立して開発作業を完了し、React/Redux/Relay Front-Endチームと協力しています。 Webアプリケーションのコア機能と改善を構築し、機能設計プロセス全体でデザイナーとリーダーシップと緊密に連携します。肯定的な開発プロセスを促進し、反復速度を優先します。 6年以上の複雑なWebアプリケーションバックエンドが必要です

MySQLインストール後にデータベースのパフォーマンスを最適化する方法 MySQLインストール後にデータベースのパフォーマンスを最適化する方法 Apr 08, 2025 am 11:36 AM

MySQLパフォーマンスの最適化は、インストール構成、インデックス作成、クエリの最適化、監視、チューニングの3つの側面から開始する必要があります。 1。インストール後、INNODB_BUFFER_POOL_SIZEパラメーターやclose query_cache_sizeなど、サーバーの構成に従ってmy.cnfファイルを調整する必要があります。 2。過度のインデックスを回避するための適切なインデックスを作成し、説明コマンドを使用して実行計画を分析するなど、クエリステートメントを最適化します。 3. MySQL独自の監視ツール(ShowProcessList、ShowStatus)を使用して、データベースの健康を監視し、定期的にデータベースをバックアップして整理します。これらの手順を継続的に最適化することによってのみ、MySQLデータベースのパフォーマンスを改善できます。

See all articles