「花果山の名場面」には高解像度版があり、NTUはビデオ超解像度フレームワークUpscale-A-Videoを提案-AI-php.cn

ホームページ

テクノロジー周辺機器

「花果山の名場面」には高解像度版があり、NTUはビデオ超解像度フレームワークUpscale-A-Videoを提案

王林

Jan 11, 2024 pm 07:57 PM

プロジェクト

拡散モデルは画像生成において目覚ましい成功を収めていますが、それをビデオの超解像度に適用するにはまだ課題があります。ビデオの超解像度には出力の忠実性と時間的一貫性が必要ですが、拡散モデルの固有の確率性によってこれが複雑になります。したがって、ビデオ超解像度に拡散モデルを効果的に適用することは依然として困難な課題です。

南洋理工大学 S-Lab の研究チームは、ビデオ超解像度のための Upscale-A-Video と呼ばれるテキストガイドによる潜在拡散フレームワークを提案しました。このフレームワークは、2 つの主要なメカニズムを通じて時間的一貫性を保証します。まず、ローカルスケールで、時間レイヤーを U-Net と VAE-Decoder に統合して、短いシーケンスの一貫性を維持します。第 2 に、フレームワークはグローバルスケールで、トレーニングなしでシーケンス全体にわたって潜在を伝播および融合するフローガイドによる再帰的潜在伝播モジュールを導入し、ビデオ全体の安定性を向上させます。このフレームワークの提案は、時間的一貫性と全体的な安定性が向上した、ビデオ超解像度の新しいソリューションを提供します。

「花果山の名場面」には高解像度版があり、NTUはビデオ超解像度フレームワークUpscale-A-Videoを提案

論文アドレス: https://arxiv.org/abs/2312.06640

拡散パラダイムを通じて、Upscale-A-Video は優れた柔軟性を獲得しました。テキストプロンプトを使用してテクスチャ作成をガイドでき、ノイズレベルを調整して復元と生成の間の忠実度と品質のバランスを取ることができます。この機能により、テクノロジーは元のコンテンツの意味を維持しながら詳細を微調整できるため、より正確な結果が得られます。

実験結果は、Upscale-A-Video が合成ベンチマークと現実世界のベンチマークで既存の手法を上回り、印象的な視覚的リアリズムと時間的一貫性を示していることを示しています。

まず、具体的な例をいくつか見てみましょう。たとえば、Upscale-A-Video の助けを借りて、「花果山の名シーン」には高解像度バージョンがあります:

「花果山の名場面」には高解像度版があり、NTUはビデオ超解像度フレームワークUpscale-A-Videoを提案

StableSR と比較すると、Upscale-A-Video ではビデオ内のリスの毛のテクスチャがはっきりと見えます:

方法の紹介

一部の研究では、時間的一貫性戦略を導入することで、ビデオタスクに適応する画像拡散モデルを最適化しています。これらの戦略には、次の 2 つの方法が含まれます。1 つは、3D 畳み込みや時間的アテンションなどの時間レイヤーを通じてビデオモデルを微調整し、ビデオ処理パフォーマンスを向上させることです。 2 番目に、クロスフレームアテンションやフローガイドアテンションなどのゼロショットメカニズムを使用して、事前トレーニングされたモデルを調整し、ビデオタスクのパフォーマンスを向上させます。これらの方法の導入により、画像拡散モデルがビデオタスクをより適切に処理できるようになり、ビデオ処理の効果が向上します。

これらのソリューションはビデオの安定性を大幅に向上させますが、次の 2 つの主な問題が残っています:

現在のメソッドは U-Net 機能または潜在スペースで動作します。低レベルの一貫性を維持するのが難しい、問題があります。テクスチャのちらつきのようなものが持続します。
既存の時間レイヤーとアテンションメカニズムは、短いローカル入力シーケンスに制約を課すことしかできず、長いビデオでグローバルな時間的一貫性を確保する能力が制限されています。

これらの問題を解決するために、Upscale-A-Video はローカル/グローバル戦略を採用し、きめの細かいテクスチャと全体的な一貫性に重点を置き、ビデオ再構成の時間的一貫性を維持します。この研究では、ローカルビデオクリップについて、ビデオデータに追加の時間レイヤーを使用して、事前トレーニングされた画像×4 超解像度モデルを微調整することを検討します。

具体的には、潜在拡散フレームワーク内で、この研究はまず統合された 3D 畳み込み層と時間的注意層を使用して U-Net を微調整し、次にビデオ条件付き入力と 3D 畳み込みを使用して VAE デコードデバイスを調整します。前者はローカルシーケンスの構造安定性を大幅に達成し、後者は低レベルの一貫性をさらに改善し、テクスチャのちらつきを軽減します。世界規模で、この研究は、推論中にフレームごとの伝播と両方向の潜在融合を実行し、長いビデオの全体的な安定性を促進する、新しいトレーニング不要のフローガイド付き再帰的潜在伝播モジュールを導入します。

Upscale-A-Video モデルでは、図 1 に示すように、テキストプロンプトをオプションの条件として利用して、より現実的で高品質の詳細を生成するようにモデルをガイドできます。

Upscale-A-Video は、ビデオをセグメントに分割し、時間レイヤーを備えた U-Net を使用してそれらを処理し、セグメント内の一貫性を実現します。再帰的潜在伝播モジュールは、ユーザー指定のグローバルリファインメント拡散中にセグメント間の一貫性を強化するために使用されます。最後に、微調整された VAE デコーダによりフリッカーアーティファクトが軽減され、低レベルの一貫性が実現されます。

#実験結果

Upscale-A-Video は既存のベンチマークで SOTA パフォーマンスを達成し、優れたビジュアルを実証しますリアリズムと時間的一貫性。

定量的な評価。表 1 に示すように、Upscale-A-Video は 4 つの合成データセットすべてで最高の PSNR を達成しており、その優れた再構成機能が示されています。

「花果山の名場面」には高解像度版があり、NTUはビデオ超解像度フレームワークUpscale-A-Videoを提案 #定性的評価。この研究では、合成ビデオと現実世界のビデオの視覚的な結果をそれぞれ図 4 と図 5 に示します。 Upscale-A-Video は、アーティファクトの除去とディテールの生成の両方において、既存の CNN および拡散ベースの手法を大幅に上回ります。

「花果山の名場面」には高解像度版があり、NTUはビデオ超解像度フレームワークUpscale-A-Videoを提案

以上が「花果山の名場面」には高解像度版があり、NTUはビデオ超解像度フレームワークUpscale-A-Videoを提案の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Java チュートリアル

1658

CakePHP チュートリアル

1415

Laravel チュートリアル

1309

PHP チュートリアル

1257

C# チュートリアル

1231

Related knowledge

ControlNet の作者がまたヒット作を出しました!写真から絵画を生成し、2 日間で 1.4,000 個のスターを獲得する全プロセス Jul 17, 2024 am 01:56 AM

これも Tusheng のビデオですが、PaintsUndo は別の道を歩んでいます。 ControlNet 作者 LvminZhang が再び生き始めました!今回は絵画の分野を目指します。新しいプロジェクト PaintsUndo は、開始されて間もなく 1.4kstar を獲得しました (まだ異常なほど上昇しています)。プロジェクトアドレス: https://github.com/lllyasviel/Paints-UNDO このプロジェクトを通じて、ユーザーが静止画像を入力すると、PaintsUndo が線画から完成品までのペイントプロセス全体のビデオを自動的に生成するのに役立ちます。。描画プロセス中の線の変化は驚くべきもので、最終的なビデオ結果は元の画像と非常によく似ています。完成した描画を見てみましょう。

オープンソース AI ソフトウェアエンジニアのリストのトップに立つ UIUC のエージェントレスソリューションは、SWE ベンチの実際のプログラミングの問題を簡単に解決します Jul 17, 2024 pm 10:02 PM

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com この論文の著者は全員、イリノイ大学アーバナシャンペーン校 (UIUC) の Zhang Lingming 教師のチームのメンバーです。博士課程4年、研究者

RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっています Jun 24, 2024 pm 03:04 PM

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com 人工知能の開発プロセスにおいて、大規模言語モデル (LLM) の制御とガイダンスは常に中心的な課題の 1 つであり、これらのモデルが両方とも確実に機能することを目指しています。強力かつ安全に人類社会に貢献します。初期の取り組みは人間のフィードバックによる強化学習手法に焦点を当てていました (RL

OpenAI Super Alignment チームの遺作: 2 つの大きなモデルがゲームをプレイし、出力がより理解しやすくなる Jul 19, 2024 am 01:29 AM

AIモデルによって与えられた答えがまったく理解できない場合、あなたはそれをあえて使用しますか?機械学習システムがより重要な分野で使用されるにつれて、なぜその出力を信頼できるのか、またどのような場合に信頼してはいけないのかを実証することがますます重要になっています。複雑なシステムの出力に対する信頼を得る方法の 1 つは、人間または他の信頼できるシステムが読み取れる、つまり、考えられるエラーが発生する可能性がある点まで完全に理解できる、その出力の解釈を生成することをシステムに要求することです。見つかった。たとえば、司法制度に対する信頼を築くために、裁判所に対し、決定を説明し裏付ける明確で読みやすい書面による意見を提供することを求めています。大規模な言語モデルの場合も、同様のアプローチを採用できます。ただし、このアプローチを採用する場合は、言語モデルが

arXiv 論文は「弾幕」として投稿可能、スタンフォード alphaXiv ディスカッションプラットフォームはオンライン、LeCun は気に入っています Aug 01, 2024 pm 05:18 PM

乾杯！紙面でのディスカッションが言葉だけになると、どんな感じになるでしょうか?最近、スタンフォード大学の学生が、arXiv 論文のオープンディスカッションフォーラムである alphaXiv を作成しました。このフォーラムでは、arXiv 論文に直接質問やコメントを投稿できます。 Web サイトのリンク: https://alphaxiv.org/ 実際、URL の arXiv を alphaXiv に変更するだけで、alphaXiv フォーラムの対応する論文を直接開くことができます。この Web サイトにアクセスする必要はありません。その中の段落を正確に見つけることができます。論文、文: 右側のディスカッションエリアでは、ユーザーは論文のアイデアや詳細について著者に尋ねる質問を投稿できます。たとえば、次のような論文の内容についてコメントすることもできます。

リーマン予想の大きな進歩!陶哲軒氏はMITとオックスフォードの新しい論文を強く推薦し、37歳のフィールズ賞受賞者も参加した Aug 05, 2024 pm 03:32 PM

最近、2000年代の7大問題の一つとして知られるリーマン予想が新たなブレークスルーを達成した。リーマン予想は、数学における非常に重要な未解決の問題であり、素数の分布の正確な性質に関連しています (素数とは、1 とそれ自身でのみ割り切れる数であり、整数論において基本的な役割を果たします)。今日の数学文献には、リーマン予想 (またはその一般化された形式) の確立に基づいた 1,000 を超える数学的命題があります。言い換えれば、リーマン予想とその一般化された形式が証明されれば、これらの 1,000 を超える命題が定理として確立され、数学の分野に重大な影響を与えることになります。これらの命題の一部も有効性を失います。 MIT数学教授ラリー・ガスとオックスフォード大学から新たな進歩がもたらされる

最初の Mamba ベースの MLLM が登場しました!モデルの重み、トレーニングコードなどはすべてオープンソースです Jul 17, 2024 am 02:46 AM

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com。はじめに近年、さまざまな分野でマルチモーダル大規模言語モデル (MLLM) の適用が目覚ましい成功を収めています。ただし、多くの下流タスクの基本モデルとして、現在の MLLM はよく知られた Transformer ネットワークで構成されています。

公理的トレーニングにより、LLM は因果推論を学習できます。6,700 万個のパラメータモデルは、1 兆個のパラメータレベル GPT-4 に匹敵します。 Jul 17, 2024 am 10:14 AM

LLM に因果連鎖を示すと、LLM は公理を学習します。 AI はすでに数学者や科学者の研究を支援しています。たとえば、有名な数学者のテレンスタオは、GPT などの AI ツールを活用した研究や探索の経験を繰り返し共有しています。 AI がこれらの分野で競争するには、強力で信頼性の高い因果推論能力が不可欠です。この記事で紹介する研究では、小さなグラフでの因果的推移性公理の実証でトレーニングされた Transformer モデルが、大きなグラフでの推移性公理に一般化できることがわかりました。言い換えれば、Transformer が単純な因果推論の実行を学習すると、より複雑な因果推論に使用できる可能性があります。チームが提案した公理的トレーニングフレームワークは、デモンストレーションのみで受動的データに基づいて因果推論を学習するための新しいパラダイムです。

See all articles

「花果山の名場面」には高解像度版があり、NTUはビデオ超解像度フレームワークUpscale-A-Videoを提案

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック