MVDiffusion:高品質な多視点画像の生成とシーン素材の正確な再現を実現
リアルな画像生成は、仮想現実、拡張現実、ビデオ ゲーム、映画制作などの分野で幅広く応用されています。
過去 2 年間の拡散モデルの急速な発展により、画像生成の分野では大きな進歩が見られました。テキストの説明に基づいて画像を生成するための Stable Diffusion から派生した一連のオープンソースまたは商用モデルは、デザイン、ゲーム、その他の分野に多大な影響を与えました
しかし、テキストの説明に基づいて画像を生成する方法特定のテキストまたはその他の条件で、高品質のマルチビュー画像を作成することは依然として課題です。既存のメソッドには、マルチビューの一貫性において明らかな欠陥があります。
現在一般的なメソッドは、大きく 2 つのカテゴリに分類できます。
まず、クラス メソッドは専用です。シーン ピクチャと深度マップを生成し、Text2Room、SceneScape などの対応するメッシュを取得します。まず安定拡散を使用して最初のピクチャを生成し、次にイメージ ワーピングとイメージ インペインティングを使用して、自己回帰を使用して後続のピクチャと深度マップを生成します。方法。
ただし、このような解決策では、複数の画像の生成中にエラーが徐々に蓄積する可能性があり、通常、閉ループの問題 (カメラが円を描くように回転するときなど) が発生します。開始位置付近に戻ります)、生成されたコンテンツは最初のピクチャと完全に一致しません)、シーンの規模が大きい場合やピクチャ間で視点が変化する場合にはパフォーマンスが低下します。
2 番目のタイプの方法では、拡散モデルの生成アルゴリズムを拡張して、単一の画像よりもリッチなコンテンツを生成することで複数の画像を同時に生成します (360 度のパノラマの生成など) 、または画像の内容が両側に無限に外挿されます) (MultiDiffusion や DiffCollage など)。ただし、カメラ モデルは考慮されていないため、このタイプの方法で生成された結果は真のパノラマではありません。これらの画像は内容において厳密に一貫しており、意味的に世界的に統一されています。この方法の中心的な考え方は、一貫性を維持するために、ノイズ除去と画像間の対応関係の学習を同時に行うことです。
# を表示するには、次のリンクをクリックしてください。論文: https://arxiv.org/abs/2307.01097
プロジェクト Web サイトにアクセスしてください: https://mvdiffusion.github.io/
デモ: https://huggingface.co/spaces/tangshitao/MVDiffusion
コード: https://github.com/Tangshitao/MVDiffusion
カンファレンス公開: NeurIPS (キーポイント)
MVDiffusion の目標は、同時ノイズ除去とグローバル認識ベースを通じて、一貫性の高いコンテンツと統一されたグローバル セマンティクスを備えたマルチビューポイントを生成することです。 Picture
具体的には、研究者らは既存のテキストと画像の拡散モデル (安定拡散など) を拡張し、まず複数の画像を並行して処理できるようにし、さらにオリジナルでは、複数の視点とグローバルな統一性の間の一貫性を学習するために、追加の「Correspondence-aware Attendance」メカニズムが UNet に追加されています。
少量の多視点画像トレーニング データを微調整することで、結果として得られるモデルは、一貫性の高いコンテンツを持つ多視点画像を同時に生成できます。
MVDiffusion は、3 つの異なるアプリケーション シナリオで良好な結果を達成しました。
テキストに基づいて複数のビューを生成し、それらを結合してパノラマを取得します。
2. パース イメージを外挿 (アウトペイント) して、完全な 360 度のパノラマを取得します;
3. シーンのテクスチャを生成します。
アプリケーション シナリオの表示アプリケーション 1: パノラマ生成のプロセスでは、複数の写真またはビデオをつなぎ合わせて、パノラマ パース画像またはビデオを作成します。このプロセスには通常、特別なソフトウェアまたはツールを使用して、これらの画像やビデオを自動または手動で位置合わせ、ブレンド、修復することが含まれます。パノラマ生成により、人々は風景、建物、室内空間などのシーンをより広い視野で鑑賞、体験することができます。このテクノロジーは、観光、不動産、仮想現実、その他の分野で幅広い用途があります (テキストによると)
パノラマの生成を例として、シーンを説明するテキストを入力すると、MVDIffusion は次のことができます。シーンの複数の画像を生成する パースペクティブ画像
次を入力して 8 枚のマルチパースペクティブ画像を取得します: 「このキッチンはカントリーとモダンが魅力的に融合しており、大きな再生木材のアイランドが特徴です。大理石のカウンタートップ、キャビネットに囲まれた A シンク。アイランドの左側には背の高いステンレス製の冷蔵庫があります。シンクの右側には、パステル カラーで塗装された造り付けの木製キャビネットがあります。」
これら 8 枚の写真を 1 つのパノラマにつなぎ合わせることができます:
MVDiffusion は Provide もサポートしています画像ごとに異なるテキストの説明がありますが、説明は意味的に一貫している必要があります。
アプリケーション 2: パノラマ生成のプロセスは、複数の写真またはビデオをつなぎ合わせて、パノラマ透視画像またはビデオを作成することです。このプロセスには通常、特別なソフトウェアまたはツールを使用して、これらの画像やビデオを自動または手動で位置合わせ、ブレンド、修復することが含まれます。パノラマ生成により、人々は風景、建物、室内空間などのシーンをより広い視野で鑑賞、体験することができます。この技術は、観光、不動産、仮想現実、その他の分野で幅広く応用されています (透視画像に基づいて)
MVDiffusion は、透視画像を完全な 360 度のパノラマ画像に外挿 (塗りつぶし) することができます。
たとえば、次のパースペクティブを入力するとします。
MVDiffusion は、さらに以下のパノラマを生成できます。
生成されたパノラマは入力画像を意味的に拡大し、左端と右端の内容が接続されていることがわかります (閉ループ問題はありません) )。
アプリケーション 3: シーン マテリアルの生成
MVDiffusion を使用して、特定のマテリアルレス シーン メッシュのマテリアル (テクスチャ) を生成します
具体的には、まずメッシュをレンダリングして多視点深度マップを取得し、カメラの姿勢と深度マップを通じて多視点画像のピクセル間の対応関係を取得します。
次に、MVDiffusion は、一貫したマルチビュー RGB 画像を同時に生成する条件としてマルチビュー デプス マップを使用します。
生成されたマルチビュー イメージはコンテンツの一貫性を高度に維持できるため、それをメッシュに再投影することで、高品質のテクスチャ メッシュを取得できます。
以下はその他のエフェクトの例です:
パノラマ生成のプロセスは、複数の写真またはビデオを結合することです。画像やビデオを組み合わせてパノラマ ビューを作成します。このプロセスには通常、特別なソフトウェアまたはツールを使用して、これらの画像やビデオを自動または手動で位置合わせ、ブレンド、修復することが含まれます。パノラマ生成により、人々は風景、建物、室内空間などのシーンをより広い視野で鑑賞、体験することができます。このテクノロジーは、観光、不動産、仮想現実、その他の分野で幅広く応用されています
##このアプリケーション シナリオでは、次のことに言及する必要があります。特に、MVDiffusion のトレーニングに使用されるマルチビュー画像データはすべて屋内シーンのパノラマから取得され、スタイルはすべて単一の
ですが、MVDiffusion は元の安定したデータを変更しません。拡散パラメータを使用して、新しく追加された Correspondence-aware Attendance
をトレーニングするだけです。
最後に、モデルは、指定されたテキストに基づいて、さまざまなスタイル (屋外、漫画など) のマルチビュー画像を生成できます。
#書き直す必要がある内容は次のとおりです: シングルビュー外挿
シーン マテリアルの生成
1 の概要を示しています。パノラマ生成のプロセスでは、複数の写真またはビデオをつなぎ合わせて、パノラマ透視画像またはビデオを作成します。このプロセスには通常、特別なソフトウェアまたはツールを使用して、これらの画像やビデオを自動または手動で位置合わせ、ブレンド、修復することが含まれます。パノラマ生成により、人々は風景、建物、室内空間などのシーンをより広い視野で鑑賞、体験することができます。この技術は、観光、不動産、仮想現実、その他の分野で幅広く応用されています (本文によると)
MVDiffusion は、8 つの重なり合う画像を同時に生成します。パース画像)を作成し、これら 8 枚の写真をパノラマにつなぎ合わせます。これら 8 つの透視画像では、3x3 ホモグラフィック マトリックスによって 2 つの各画像間のピクセルの対応関係が決定されます。
特定の生成プロセスでは、MVDiffusion は最初にガウスランダム初期化を使用して 8 つの画像ビューを生成します。
次に、これら 8 つの画像の画像は次のとおりです。複数のブランチを持つ安定拡散の事前トレーニング済み Unet ネットワークに入力され、生成された結果を取得するために同期ノイズ除去が実行されます。
新しい「Correspondence-aware Attendance」モジュール (上の図の水色の部分) が UNet ネットワークに追加されました。これは、クロスビュー間の幾何学的一貫性を学習するために使用されます。 、これらの 8 枚の写真を一貫したパノラマにつなぎ合わせることができるようにします。
#2. パノラマ生成のプロセスでは、複数の写真またはビデオをつなぎ合わせて、パノラマ パース画像またはビデオを作成します。このプロセスには通常、特別なソフトウェアまたはツールを使用して、これらの画像やビデオを自動または手動で位置合わせ、ブレンド、修復することが含まれます。パノラマ生成により、人々は風景、建物、室内空間などのシーンをより広い視野で鑑賞、体験することができます。このテクノロジーは、観光、不動産、仮想現実などに幅広い用途があります (透視図によると)
MVDiffusion単一のパース ビューをパノラマに完成させることもできます。パノラマ生成のプロセスでは、複数の写真またはビデオをつなぎ合わせて、画像またはビデオのパノラマ ビューを作成します。このプロセスには通常、特別なソフトウェアまたはツールを使用して、これらの画像やビデオを自動または手動で位置合わせ、ブレンド、修復することが含まれます。パノラマ生成により、人々は風景、建物、室内空間などのシーンをより広い視野で鑑賞、体験することができます。この技術は、観光、不動産、仮想現実などの分野で幅広い応用が可能であり、MVDiffusion は、ランダムに初期化された 8 つの視点画像 (視点に対応する視点を含む) をマルチブランチの Stable Diffusion Inpainting 事前学習済み UNet ネットワークに入力します。
安定拡散修復モデルでは、UNet は追加の入力マスクを使用して条件付きイメージと生成されるイメージを区別します
視点パースペクティブに対応するマスクは 1 に設定され、このブランチの UNet はパースペクティブを直接復元します。他のパースペクティブの場合、マスクは 0 に設定され、対応するブランチの UNet が新しいパースペクティブを生成します。
#同様に、MVDiffusion は「Correspondence-aware Attendance」モジュールを使用して、次のことを学習します。画像と条件を生成します。画像間の幾何学的一貫性と意味論的な統一性を実現します。MVDiffusion はまず、深度マップとカメラのポーズに基づいて軌跡上に RGB を生成します。 . 画像を作成し、TSDF フュージョンを使用して、生成された RGB 画像を指定された深度マップでメッシュ化します。 RGB 画像のピクセル対応は、深度マップとカメラのポーズを通じて取得できます。 パノラマ生成のプロセスは、複数の写真またはビデオをつなぎ合わせて、画像またはビデオのパノラマ ビューを作成することです。このプロセスには通常、特別なソフトウェアまたはツールを使用して、これらの画像やビデオを自動または手動で位置合わせ、ブレンド、修復することが含まれます。パノラマ生成により、人々は風景、建物、室内空間などのシーンをより広い視野で鑑賞、体験することができます。この技術は、観光、不動産、仮想現実などの分野で幅広く応用されており、マルチブランチUNetを使用し、視点間の幾何学的一貫性を学習するための「Correspondence-aware Attendance」を挿入しています。 #「対応を意識したアテンション」 MVDiffusion の中核である「(CAA)」は、複数のビュー間の幾何学的一貫性と意味論的な統一性を学習するために使用されます。 MVDiffusion は、Stable Diffusion UNet の各 UNet ブロックの後に「Correspondence-aware Attendance」ブロックを挿入します。 CAA は、ソース特徴マップと N ターゲット特徴マップを考慮することによって機能します。 ソース特徴マップ内の位置については、ターゲット特徴マップ内の対応するピクセルとその近傍に基づいてアテンション出力を計算します。 具体的には、各ターゲット ピクセル t^l に対して、MVDiffusion は (x/y) 座標を渡します。整数の変位を加算します。 (dx/dy) K x K 近傍を考慮します。ここで、|dx| は x 方向の変位を表し、|dy| は y 方向の変位 実際のアプリケーションでは、MVDiffusion アルゴリズムは K=3 を使用し、9 点の近傍を選択してパノラマの品質を向上させます。ただし、幾何学的条件を考慮した多視点画像を生成する場合、作業効率を向上させるため、K=1 CAAモジュールを使用した計算が必要となります。上の式に示すように、標準のアテンション メカニズムに従います。ここで、W_Q、W_K、および W_V はクエリ、キー、および値行列の学習可能な重みです。ターゲット フィーチャは整数位置に配置されず、双線形補間によって取得されます。 主な違いは、位置エンコードが、対応する位置 s^l と s の間の 2D 変位 (パノラマ) または 1D 深度誤差 (ジオメトリ) に基づいてターゲット フィーチャに追加されることです。ソース画像。 パノラマ生成 (アプリケーション 1 およびアプリケーション 2) では、この変位によってローカル近傍の相対位置が得られます。 また、深度から画像の生成 (アプリケーション 3) では、視差は深度の不連続性やオクルージョンに関する手がかりを提供します。これは高忠実度の画像生成にとって非常に重要です。 ディスプレイスメントは、2D (ディスプレイスメント) ベクトルまたは 1D (深さエラー) ベクトルを含む概念であることに注意してください。 MVDiffusion は、変位の x 座標と y 座標に標準の周波数エンコーディングを適用します。
3. シーン マテリアルの生成
#4. 対応を意識したアテンション メカニズム
以上がMVDiffusion:高品質な多視点画像の生成とシーン素材の正確な再現を実現の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









phpMyAdminを使用してデータテーブルを作成するには、次の手順が不可欠です。データベースに接続して、[新しいタブ]をクリックします。テーブルに名前を付けて、ストレージエンジンを選択します(InnoDB推奨)。列名、データ型、null値、その他のプロパティを許可するかどうかなど、列の追加ボタンをクリックして列の詳細を追加します。一次キーとして1つ以上の列を選択します。 [保存]ボタンをクリックして、テーブルと列を作成します。

Oracleデータベースを作成するのは簡単ではありません。根本的なメカニズムを理解する必要があります。 1.データベースとOracle DBMSの概念を理解する必要があります。 2。SID、CDB(コンテナデータベース)、PDB(プラグ可能なデータベース)などのコアコンセプトをマスターします。 3。SQL*Plusを使用してCDBを作成し、PDBを作成するには、サイズ、データファイルの数、パスなどのパラメーターを指定する必要があります。 4.高度なアプリケーションは、文字セット、メモリ、その他のパラメーターを調整し、パフォーマンスチューニングを実行する必要があります。 5.ディスクスペース、アクセス許可、パラメーター設定に注意し、データベースのパフォーマンスを継続的に監視および最適化します。 それを巧みに習得することによってのみ、継続的な練習が必要であることは、Oracleデータベースの作成と管理を本当に理解できます。

Oracleデータベースを作成するには、一般的な方法はDBCAグラフィカルツールを使用することです。手順は次のとおりです。1。DBCAツールを使用してDBNAMEを設定してデータベース名を指定します。 2. SyspasswordとSystemPassWordを強力なパスワードに設定します。 3.文字セットとNationalCharactersetをAL32UTF8に設定します。 4.実際のニーズに応じて調整するようにMemorySizeとTableSpacesizeを設定します。 5. logfileパスを指定します。 高度な方法は、SQLコマンドを使用して手動で作成されますが、より複雑でエラーが発生しやすいです。 パスワードの強度、キャラクターセットの選択、表空間サイズ、メモリに注意してください

Oracle SQLステートメントのコアは、さまざまな条項の柔軟なアプリケーションと同様に、選択、挿入、更新、削除です。インデックスの最適化など、ステートメントの背後にある実行メカニズムを理解することが重要です。高度な使用法には、サブクエリ、接続クエリ、分析関数、およびPL/SQLが含まれます。一般的なエラーには、構文エラー、パフォーマンスの問題、およびデータの一貫性の問題が含まれます。パフォーマンス最適化のベストプラクティスには、適切なインデックスの使用、Select *の回避、条項の最適化、およびバインドされた変数の使用が含まれます。 Oracle SQLの習得には、コードライティング、デバッグ、思考、基礎となるメカニズムの理解など、練習が必要です。

MySQLのフィールド操作ガイド:フィールドを追加、変更、削除します。フィールドを追加:table table_nameを変更するcolumn_name data_type [not null] [default default_value] [プライマリキー] [auto_increment]フィールドの変更:column_name data_typeを変更するcolumn_name data_type [not null] [default default_value] [プライマリキー]

Oracleデータベースの整合性の制約により、以下を含むデータの精度を確保できます。NULL:NULL値は禁止されています。一意:単一のヌル値を許可する一意性を保証します。一次キー:一次キーの制約、一意を強化し、ヌル値を禁止します。外部キー:テーブル間の関係を維持する、外部キーはプライマリテーブルのプライマリキーを参照します。チェック:条件に応じて列の値を制限します。

ネストされたクエリは、1つのクエリに別のクエリを含める方法です。これらは主に、複雑な条件を満たし、複数のテーブルを関連付け、要約値または統計情報を計算するデータを取得するために使用されます。例には、平均賃金を超える従業員を見つけること、特定のカテゴリの注文を見つけること、各製品の総注文量の計算が含まれます。ネストされたクエリを書くときは、サブ征服を書き、結果を外側のクエリ(エイリアスまたは条項として参照)に書き込み、クエリパフォーマンスを最適化する必要があります(インデックスを使用)。

Tomcatログは、メモリリークの問題を診断するための鍵です。 Tomcatログを分析することにより、メモリの使用状況とガベージコレクション(GC)の動作に関する洞察を得ることができ、メモリリークを効果的に見つけて解決できます。 Tomcatログを使用してメモリリークをトラブルシューティングする方法は次のとおりです。1。GCログ分析最初に、詳細なGCロギングを有効にします。 Tomcatの起動パラメーターに次のJVMオプションを追加します:-xx:printgcdetails-xx:printgcdateStamps-xloggc:gc.logこれらのパラメーターは、GCタイプ、リサイクルオブジェクトサイズ、時間などの情報を含む詳細なGCログ(GC.log)を生成します。分析GC.LOG
