拡散モデルは画像生成において目覚ましい成功を収めていますが、それをビデオの超解像度に適用するにはまだ課題があります。ビデオの超解像度には出力の忠実性と時間的一貫性が必要ですが、拡散モデルの固有の確率性によってこれが複雑になります。したがって、ビデオ超解像度に拡散モデルを効果的に適用することは依然として困難な課題です。
南洋理工大学 S-Lab の研究チームは、ビデオ超解像度のための Upscale-A-Video と呼ばれるテキストガイドによる潜在拡散フレームワークを提案しました。このフレームワークは、2 つの主要なメカニズムを通じて時間的一貫性を保証します。まず、ローカル スケールで、時間レイヤーを U-Net と VAE-Decoder に統合して、短いシーケンスの一貫性を維持します。第 2 に、フレームワークはグローバル スケールで、トレーニングなしでシーケンス全体にわたって潜在を伝播および融合するフローガイドによる再帰的潜在伝播モジュールを導入し、ビデオ全体の安定性を向上させます。このフレームワークの提案は、時間的一貫性と全体的な安定性が向上した、ビデオ超解像度の新しいソリューションを提供します。
論文アドレス: https://arxiv.org/abs/2312.06640
拡散パラダイムを通じて、Upscale-A-Video は優れた柔軟性を獲得しました。テキスト プロンプトを使用してテクスチャ作成をガイドでき、ノイズ レベルを調整して復元と生成の間の忠実度と品質のバランスを取ることができます。この機能により、テクノロジーは元のコンテンツの意味を維持しながら詳細を微調整できるため、より正確な結果が得られます。
実験結果は、Upscale-A-Video が合成ベンチマークと現実世界のベンチマークで既存の手法を上回り、印象的な視覚的リアリズムと時間的一貫性を示していることを示しています。
まず、具体的な例をいくつか見てみましょう。たとえば、Upscale-A-Video の助けを借りて、「花果山の名シーン」には高解像度バージョンがあります:
StableSR と比較すると、Upscale-A-Video ではビデオ内のリスの毛のテクスチャがはっきりと見えます:
方法の紹介
一部の研究では、時間的一貫性戦略を導入することで、ビデオタスクに適応する画像拡散モデルを最適化しています。これらの戦略には、次の 2 つの方法が含まれます。1 つは、3D 畳み込みや時間的アテンションなどの時間レイヤーを通じてビデオ モデルを微調整し、ビデオ処理パフォーマンスを向上させることです。 2 番目に、クロスフレーム アテンションやフローガイド アテンションなどのゼロショット メカニズムを使用して、事前トレーニングされたモデルを調整し、ビデオ タスクのパフォーマンスを向上させます。これらの方法の導入により、画像拡散モデルがビデオ タスクをより適切に処理できるようになり、ビデオ処理の効果が向上します。
これらのソリューションはビデオの安定性を大幅に向上させますが、次の 2 つの主な問題が残っています:
現在のメソッドは U-Net 機能または潜在スペースで動作します。 低レベルの一貫性を維持するのが難しい、問題があります。テクスチャのちらつきのようなものが持続します。
既存の時間レイヤーとアテンション メカニズムは、短いローカル入力シーケンスに制約を課すことしかできず、長いビデオでグローバルな時間的一貫性を確保する能力が制限されています。
これらの問題を解決するために、Upscale-A-Video はローカル/グローバル戦略を採用し、きめの細かいテクスチャと全体的な一貫性に重点を置き、ビデオ再構成の時間的一貫性を維持します。この研究では、ローカル ビデオ クリップについて、ビデオ データに追加の時間レイヤーを使用して、事前トレーニングされた画像×4 超解像度モデルを微調整することを検討します。
具体的には、潜在拡散フレームワーク内で、この研究はまず統合された 3D 畳み込み層と時間的注意層を使用して U-Net を微調整し、次にビデオ条件付き入力と 3D 畳み込みを使用して VAE デコード デバイスを調整します。前者はローカルシーケンスの構造安定性を大幅に達成し、後者は低レベルの一貫性をさらに改善し、テクスチャのちらつきを軽減します。世界規模で、この研究は、推論中にフレームごとの伝播と両方向の潜在融合を実行し、長いビデオの全体的な安定性を促進する、新しいトレーニング不要のフローガイド付き再帰的潜在伝播モジュールを導入します。
Upscale-A-Video モデルでは、図 1 に示すように、テキスト プロンプトをオプションの条件として利用して、より現実的で高品質の詳細を生成するようにモデルをガイドできます。
Upscale-A-Video は、ビデオをセグメントに分割し、時間レイヤーを備えた U-Net を使用してそれらを処理し、セグメント内の一貫性を実現します。再帰的潜在伝播モジュールは、ユーザー指定のグローバル リファインメント拡散中にセグメント間の一貫性を強化するために使用されます。最後に、微調整された VAE デコーダによりフリッカー アーティファクトが軽減され、低レベルの一貫性が実現されます。
#実験結果
Upscale-A-Video は既存のベンチマークで SOTA パフォーマンスを達成し、優れたビジュアルを実証しますリアリズムと時間的一貫性。 定量的な評価。表 1 に示すように、Upscale-A-Video は 4 つの合成データセットすべてで最高の PSNR を達成しており、その優れた再構成機能が示されています。#定性的評価。この研究では、合成ビデオと現実世界のビデオの視覚的な結果をそれぞれ図 4 と図 5 に示します。 Upscale-A-Video は、アーティファクトの除去とディテールの生成の両方において、既存の CNN および拡散ベースの手法を大幅に上回ります。
以上が「花果山の名場面」には高解像度版があり、NTUはビデオ超解像度フレームワークUpscale-A-Videoを提案の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。