一般的な画像編集操作では、画像合成とは、ある画像の前景オブジェクトを別の背景画像と組み合わせて合成画像を生成するプロセスを指します。合成画像の視覚効果は、次の図に示すように、前景オブジェクトを 1 つの画像から別の背景画像に転送するのと似ています。
芸術作品、ポスター デザインにおける画像合成、電子商取引、仮想現実、データ拡張などの分野で広く使用されています
単純なカット アンド ペーストで得られる合成画像には多くの問題が発生する可能性があります。以前の研究では、画像合成は異なるサブ問題をそれぞれ解決するために異なるサブタスクを導き出しました。たとえば、画像ブレンディングは、前景と背景の間の不自然な境界を解決することを目的としています。画像の調和は、背景と調和するように前景の照明を調整することを目的としています。遠近感の調整は、前景のポーズを背景と一致するように調整することを目的としています。オブジェクトの配置は、前景オブジェクトの適切な位置、サイズ、および遠近角を予測することを目的としています。影の生成は、背景の前景オブジェクトに対して適切な影を生成することを目的としています。
下の図に示すように、以前の研究では、上記のサブタスクを直列または並列で実行して、現実的で自然な合成画像を取得していました。シリアル フレームワークでは、実際のニーズに応じていくつかのサブタスクを選択的に実行できます。
パラレル フレームワークでは、現在一般的な方法は拡散モデルを使用することです。前景境界ボックスを含む背景画像と前景オブジェクト画像を入力として受け取り、最終的な合成画像を直接生成します。これにより、前景オブジェクトと背景画像がシームレスにブレンドされ、照明と影の効果が適切になり、姿勢が背景に適応されます。
この並列フレームワークは、複数のサブタスクを同時に実行するのと同等であり、選択的に実行することはできませんこれは制御できず、前景オブジェクトの姿勢や色に不必要または不合理な変更をもたらす可能性があります。
書き直す必要があるのは次のとおりです:
# #並列フレームワークの制御性を強化し、いくつかのサブタスクを選択的に実行するために、制御可能な画像合成モデル Controlable Image Composition (ControlCom) を提案しました。以下の図に示すように、拡散モデルの条件情報として指標ベクトルを使用して、合成画像の前景オブジェクトのプロパティを制御します。指示ベクトルは、前景オブジェクトの照明属性と姿勢属性をそれぞれ調整するかどうかを各次元で制御する 2 次元のバイナリ ベクトルで、1 は調整を意味し、0 は保持を意味します。前景の照明も前景の姿勢も変更せず、オブジェクトを背景イメージにシームレスにブレンドするだけで、これはイメージ ブレンディングと同等です。 (1,0) は、背景と調和するように前景の照明を変更するだけで、前景の姿勢を保持することを意味します。これは画像の調和に相当します。 (0,1) は、背景に一致するように前景のポーズを変更するだけで、前景の照明を保持することを意味します。これはビュー合成と同等です。 (1,1) は、前景の照明と姿勢を同時に変更することを意味します。これは、現在の制御不能な並列画像合成と同等です。4 つのタスクを同じフレームワークに組み込み、4 つのタスクを実装します。インジケーター ベクトル機能を介した 1 つのオブジェクト ポータルにより、オブジェクトをシーン内の指定された場所に輸送できます。この研究は、上海交通大学と Ant Group の共同研究です。コードとモデルは間もなくオープン ソースになる予定です。次に、メソッドの 4 つのバージョン (0,0)、(1,0)、(0,1)、(1,1) の結果をさらに示します。異なるインジケーターベクトルを使用すると、私たちの方法は前景オブジェクトのいくつかの属性を選択的に調整し、合成画像の効果を効果的に制御し、ユーザーのさまざまなニーズを満たすことができることがわかります。
書き直す必要があるのは、4 つの機能を実現できるモデル構造とは何かということです。私たちの手法は次のモデル構造を採用しています. モデルの入力には, 前景境界ボックスを持つ背景画像と前景オブジェクト画像が含まれます. 前景オブジェクトの特徴と指標ベクトルは拡散モデルに結合されます.
我々は再抽出します前景のオブジェクトのグローバル フィーチャとローカル フィーチャを結合し、最初にグローバル フィーチャ、次にローカル フィーチャを融合します。ローカル フュージョン プロセス中、特徴の調整に位置合わせされた前景特徴マップを使用して、より詳細なディテールの保持を実現します。同時に、インジケーター ベクトルはグローバル フュージョンとローカル フュージョンの両方で使用され、前景オブジェクトのプロパティをより完全に制御します。
事前トレーニングされた安定拡散アルゴリズムを使用して、190 万枚の画像に基づいてモデルをトレーニングします。画像を開きます。 4 つのサブタスクを同時にトレーニングするために、一連のデータ処理および強化プロセスを設計しました。データとトレーニングの詳細については、論文
COCOEE データセットと自分たちで構築したデータセットでテストしました。従来の手法では制御不能な画像合成しか実現できなかったため、(1,1) バージョンと従来の手法とを比較しました。比較結果は下図のようになりますが、PCTNetは物体の細部を保持できる画像調和手法ですが、前景の姿勢を調整したり、前景の物体を完成させることはできません。他の方法でも同じ種類のオブジェクトを生成できますが、服のスタイル、カップの質感、鳥の羽の色などの詳細を保持する効果が低くなります。
私たちの方法はそれに比べて優れています。 . 前景オブジェクトの詳細を保持し、不完全な前景オブジェクトを完成させ、背景に対する前景オブジェクトの照明、姿勢、適応を調整します。
この作業は制御可能なものです。画像合成に初めて挑戦しました。タスクは非常に難しく、まだ多くの欠点があり、モデルのパフォーマンスは十分に安定して堅牢ではありません。さらに、照明やポーズに加えて、前景オブジェクトの属性もさらに洗練される可能性があり、よりきめ細かく制御可能な画像合成をどのように実現するかは、より困難な課題です
当初の意図を維持するために変更点。書き直す必要がある内容は次のとおりです。参考文献
Yang、Gu、Zhang、Zhang、Chen、Sun、Chen、Wen (2023)。サンプルベースの画像編集と拡散モデル。 CVPR
[2] Song Yongzhong、Zhang Zhi、Lin Zhilong、Cohen、S. D.、Price、B. L.、Zhang Jing、Jin Suying、Arriaga、D. G. 2023 年。 ObjectStitch: 生成的なオブジェクト合成。 CVPR
で以上が「シーン コントロール ポータル: 4 イン 1 のオブジェクト テレポーテーション、送信および Ant プロデュース」の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。