ホームページ テクノロジー周辺機器 AI 「シーン コントロール ポータル: 4 イン 1 のオブジェクト テレポーテーション、送信および Ant プロデュース」

「シーン コントロール ポータル: 4 イン 1 のオブジェクト テレポーテーション、送信および Ant プロデュース」

Sep 12, 2023 pm 04:05 PM
理論 画像合成 画像編集

一般的な画像編集操作では、画像合成とは、ある画像の前景オブジェクトを別の背景画像と組み合わせて合成画像を生成するプロセスを指します。合成画像の視覚効果は、次の図に示すように、前景オブジェクトを 1 つの画像から別の背景画像に転送するのと似ています。

「シーン コントロール ポータル: 4 イン 1 のオブジェクト テレポーテーション、送信および Ant プロデュース」

芸術作品、ポスター デザインにおける画像合成、電子商取引、仮想現実、データ拡張などの分野で広く使用されています

単純なカット アンド ペーストで得られる合成画像には多くの問題が発生する可能性があります。以前の研究では、画像合成は異なるサブ問題をそれぞれ解決するために異なるサブタスクを導き出しました。たとえば、画像ブレンディングは、前景と背景の間の不自然な境界を解決することを目的としています。画像の調和は、背景と調和するように前景の照明を調整することを目的としています。遠近感の調整は、前景のポーズを背景と一致するように調整することを目的としています。オブジェクトの配置は、前景オブジェクトの適切な位置、サイズ、および遠近角を予測することを目的としています。影の生成は、背景の前景オブジェクトに対して適切な影を生成することを目的としています。

下の図に示すように、以前の研究では、上記のサブタスクを直列または並列で実行して、現実的で自然な合成画像を取得していました。シリアル フレームワークでは、実際のニーズに応じていくつかのサブタスクを選択的に実行できます。

パラレル フレームワークでは、現在一般的な方法は拡散モデルを使用することです。前景境界ボックスを含む背景画像と前景オブジェクト画像を入力として受け取り、最終的な合成画像を直接生成します。これにより、前景オブジェクトと背景画像がシームレスにブレンドされ、照明と影の効果が適切になり、姿勢が背景に適応されます。

この並列フレームワークは、複数のサブタスクを同時に実行するのと同等であり、選択的に実行することはできませんこれは制御できず、前景オブジェクトの姿勢や色に不必要または不合理な変更をもたらす可能性があります。

書き直す必要があるのは次のとおりです:

「シーン コントロール ポータル: 4 イン 1 のオブジェクト テレポーテーション、送信および Ant プロデュース」
# #並列フレームワークの制御性を強化し、いくつかのサブタスクを選択的に実行するために、制御可能な画像合成モデル Controlable Image Composition (ControlCom) を提案しました。以下の図に示すように、拡散モデルの条件情報として指標ベクトルを使用して、合成画像の前景オブジェクトのプロパティを制御します。指示ベクトルは、前景オブジェクトの照明属性と姿勢属性をそれぞれ調整するかどうかを各次元で制御する 2 次元のバイナリ ベクトルで、1 は調整を意味し、0 は保持を意味します。前景の照明も前景の姿勢も変更せず、オブジェクトを背景イメージにシームレスにブレンドするだけで、これはイメージ ブレンディングと同等です。 (1,0) は、背景と調和するように前景の照明を変更するだけで、前景の姿勢を保持することを意味します。これは画像の調和に相当します。 (0,1) は、背景に一致するように前景のポーズを変更するだけで、前景の照明を保持することを意味します。これはビュー合成と同等です。 (1,1) は、前景の照明と姿勢を同時に変更することを意味します。これは、現在の制御不能な並列画像合成と同等です。

4 つのタスクを同じフレームワークに組み込み、4 つのタスクを実装します。インジケーター ベクトル機能を介した 1 つのオブジェクト ポータルにより、オブジェクトをシーン内の指定された場所に輸送できます。この研究は、上海交通大学と Ant Group の共同研究です。コードとモデルは間もなくオープン ソースになる予定です。

論文を表示するには、次のリンクをクリックしてください: https: //arxiv.org/ abs/2308.10040「シーン コントロール ポータル: 4 イン 1 のオブジェクト テレポーテーション、送信および Ant プロデュース」
コード モデル リンク: https://github.com/bcmi/ControlCom-Image-Composition

下の図では、次の関数を示しています。制御可能な画像合成

左の列では、前景オブジェクトの姿勢は元々背景画像に合わせられていますが、ユーザーは前景オブジェクトの姿勢を保持したい場合があります。以前のメソッド PbE [1] および ObjectStitch [2] は、前景オブジェクトのポーズに不必要で制御不能な変更を加えます。私たちのメソッドの (1,0) バージョンは、前景オブジェクトのポーズを保持し、調和のとれた照明で前景オブジェクトを背景画像にシームレスにブレンドすることができます。 「シーン コントロール ポータル: 4 イン 1 のオブジェクト テレポーテーション、送信および Ant プロデュース」
右側の列では、前景オブジェクトは背景照明と同じであると考えられます。以前の方法では、車両や衣服などの前景オブジェクトの色に予期しない変化が生じる可能性があります。私たちの方法 (バージョン 0.1) は、前景オブジェクトの色を維持しながら、同時に背景画像に自然に溶け込むようにポーズを調整することができます。
「シーン コントロール ポータル: 4 イン 1 のオブジェクト テレポーテーション、送信および Ant プロデュース」

次に、メソッドの 4 つのバージョン (0,0)、(1,0)、(0,1)、(1,1) の結果をさらに示します。異なるインジケーターベクトルを使用すると、私たちの方法は前景オブジェクトのいくつかの属性を選択的に調整し、合成画像の効果を効果的に制御し、ユーザーのさまざまなニーズを満たすことができることがわかります。

「シーン コントロール ポータル: 4 イン 1 のオブジェクト テレポーテーション、送信および Ant プロデュース」

書き直す必要があるのは、4 つの機能を実現できるモデル構造とは何かということです。私たちの手法は次のモデル構造を採用しています. モデルの入力には, 前景境界ボックスを持つ背景画像と前景オブジェクト画像が含まれます. 前景オブジェクトの特徴と指標ベクトルは拡散モデルに結合されます.

我々は再抽出します前景のオブジェクトのグローバル フィーチャとローカル フィーチャを結合し、最初にグローバル フィーチャ、次にローカル フィーチャを融合します。ローカル フュージョン プロセス中、特徴の調整に位置合わせされた前景特徴マップを使用して、より詳細なディテールの保持を実現します。同時に、インジケーター ベクトルはグローバル フュージョンとローカル フュージョンの両方で使用され、前景オブジェクトのプロパティをより完全に制御します。

事前トレーニングされた安定拡散アルゴリズムを使用して、190 万枚の画像に基づいてモデルをトレーニングします。画像を開きます。 4 つのサブタスクを同時にトレーニングするために、一連のデータ処理および強化プロセスを設計しました。データとトレーニングの詳細については、論文

「シーン コントロール ポータル: 4 イン 1 のオブジェクト テレポーテーション、送信および Ant プロデュース」

COCOEE データセットと自分たちで構築したデータセットでテストしました。従来の手法では制御不能な画像合成しか実現できなかったため、(1,1) バージョンと従来の手法とを比較しました。比較結果は下図のようになりますが、PCTNetは物体の細部を保持できる画像調和手法ですが、前景の姿勢を調整したり、前景の物体を完成させることはできません。他の方法でも同じ種類のオブジェクトを生成できますが、服のスタイル、カップの質感、鳥の羽の色などの詳細を保持する効果が低くなります。

私たちの方法はそれに比べて優れています。 . 前景オブジェクトの詳細を保持し、不完全な前景オブジェクトを完成させ、背景に対する前景オブジェクトの照明、姿勢、適応を調整します。

「シーン コントロール ポータル: 4 イン 1 のオブジェクト テレポーテーション、送信および Ant プロデュース」

この作業は制御可能なものです。画像合成に初めて挑戦しました。タスクは非常に難しく、まだ多くの欠点があり、モデルのパフォーマンスは十分に安定して堅牢ではありません。さらに、照明やポーズに加えて、前景オブジェクトの属性もさらに洗練される可能性があり、よりきめ細かく制御可能な画像合成をどのように実現するかは、より困難な課題です

当初の意図を維持するために変更点。書き直す必要がある内容は次のとおりです。参考文献

Yang、Gu、Zhang、Zhang、Chen、Sun、Chen、Wen (2023)。サンプルベースの画像編集と拡散モデル。 CVPR

[2] Song Yongzhong、Zhang Zhi、Lin Zhilong、Cohen、S. D.、Price、B. L.、Zhang Jing、Jin Suying、Arriaga、D. G. 2023 年。 ObjectStitch: 生成的なオブジェクト合成。 CVPR

以上が「シーン コントロール ポータル: 4 イン 1 のオブジェクト テレポーテーション、送信および Ant プロデュース」の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

「Defect Spectrum」は、従来の欠陥検出の限界を打ち破り、超高精度かつ豊富なセマンティックな産業用欠陥検出を初めて実現します。 「Defect Spectrum」は、従来の欠陥検出の限界を打ち破り、超高精度かつ豊富なセマンティックな産業用欠陥検出を初めて実現します。 Jul 26, 2024 pm 05:38 PM

現代の製造において、正確な欠陥検出は製品の品​​質を確保するための鍵であるだけでなく、生産効率を向上させるための核心でもあります。ただし、既存の欠陥検出データセットには、実際のアプリケーションに必要な精度や意味論的な豊富さが欠けていることが多く、その結果、モデルが特定の欠陥カテゴリや位置を識別できなくなります。この問題を解決するために、広州香港科技大学と Simou Technology で構成されるトップの研究チームは、産業欠陥に関する詳細かつ意味的に豊富な大規模なアノテーションを提供する「DefectSpectrum」データセットを革新的に開発しました。表 1 に示すように、他の産業データ セットと比較して、「DefectSpectrum」データ セットは最も多くの欠陥注釈 (5438 個の欠陥サンプル) と最も詳細な欠陥分類 (125 個の欠陥カテゴリ) を提供します。

NVIDIA 対話モデル ChatQA はバージョン 2.0 に進化し、コンテキストの長さは 128K と記載されています NVIDIA 対話モデル ChatQA はバージョン 2.0 に進化し、コンテキストの長さは 128K と記載されています Jul 26, 2024 am 08:40 AM

オープンな LLM コミュニティは百花繚乱の時代です Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1 などがご覧いただけます。優秀なパフォーマーモデル。しかし、GPT-4-Turboに代表される独自の大型モデルと比較すると、オープンモデルには依然として多くの分野で大きなギャップがあります。一般的なモデルに加えて、プログラミングと数学用の DeepSeek-Coder-V2 や視覚言語タスク用の InternVL など、主要な領域に特化したいくつかのオープン モデルが開発されています。

結晶相問題を解決するための数百万の結晶データを使用したトレーニング、深層学習手法 PhAI が Science 誌に掲載 結晶相問題を解決するための数百万の結晶データを使用したトレーニング、深層学習手法 PhAI が Science 誌に掲載 Aug 08, 2024 pm 09:22 PM

編集者 |KX 今日に至るまで、単純な金属から大きな膜タンパク質に至るまで、結晶学によって決定される構造の詳細と精度は、他のどの方法にも匹敵しません。しかし、最大の課題、いわゆる位相問題は、実験的に決定された振幅から位相情報を取得することのままです。デンマークのコペンハーゲン大学の研究者らは、結晶相の問題を解決するための PhAI と呼ばれる深層学習手法を開発しました。数百万の人工結晶構造とそれに対応する合成回折データを使用して訓練された深層学習ニューラル ネットワークは、正確な電子密度マップを生成できます。この研究では、この深層学習ベースの非経験的構造解法は、従来の非経験的計算法とは異なり、わずか 2 オングストロームの解像度で位相問題を解決できることが示されています。これは、原子解像度で利用可能なデータのわずか 10% ~ 20% に相当します。

Google AI が IMO 数学オリンピック銀メダルを獲得、数理推論モデル AlphaProof が発売、強化学習が復活 Google AI が IMO 数学オリンピック銀メダルを獲得、数理推論モデル AlphaProof が発売、強化学習が復活 Jul 26, 2024 pm 02:40 PM

AI にとって、数学オリンピックはもはや問題ではありません。木曜日、Google DeepMind の人工知能は、AI を使用して今年の国際数学オリンピック IMO の本当の問題を解決するという偉業を達成し、金メダル獲得まであと一歩のところまで迫りました。先週終了したばかりの IMO コンテストでは、代数、組合せ論、幾何学、数論を含む 6 つの問題が出題されました。 Googleが提案したハイブリッドAIシステムは4問正解で28点を獲得し、銀メダルレベルに達した。今月初め、UCLA 終身教授のテレンス・タオ氏が、100 万ドルの賞金をかけて AI 数学オリンピック (AIMO Progress Award) を宣伝したばかりだったが、予想外なことに、AI の問題解決のレベルは 7 月以前にこのレベルまで向上していた。 IMO に関する質問を同時に行うのが最も難しいのは、最も歴史が長く、規模が最も大きく、最も否定的な IMO です。

自然の視点: 医療における人工知能のテストは混乱に陥っています。何をすべきでしょうか? 自然の視点: 医療における人工知能のテストは混乱に陥っています。何をすべきでしょうか? Aug 22, 2024 pm 04:37 PM

編集者 | ScienceAI 限られた臨床データに基づいて、何百もの医療アルゴリズムが承認されています。科学者たちは、誰がツールをテストすべきか、そしてどのようにテストするのが最善かについて議論しています。デビン シン氏は、救急治療室で小児患者が治療を長時間待っている間に心停止に陥るのを目撃し、待ち時間を短縮するための AI の応用を模索するようになりました。 SickKids 緊急治療室からのトリアージ データを使用して、Singh 氏らは潜在的な診断を提供し、検査を推奨する一連の AI モデルを構築しました。ある研究では、これらのモデルにより医師の診察が 22.3% 短縮され、医療検査が必要な患者 1 人あたりの結果の処理が 3 時間近く高速化できることが示されました。ただし、研究における人工知能アルゴリズムの成功は、これを証明するだけです。

新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 Jul 25, 2024 am 06:42 AM

編集者 |ScienceAI 質問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データ セットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データ セットがありますが、これらのデータ セットにはまだいくつかの欠点があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

PRO | なぜ MoE に基づく大規模モデルがより注目に値するのでしょうか? PRO | なぜ MoE に基づく大規模モデルがより注目に値するのでしょうか? Aug 07, 2024 pm 07:08 PM

2023 年には、AI のほぼすべての分野が前例のない速度で進化しています。同時に、AI は身体化されたインテリジェンスや自動運転などの主要な分野の技術的限界を押し広げています。マルチモーダルの流れのもと、AI大型モデルの主流アーキテクチャとしてのTransformerの状況は揺るがされるだろうか? MoE (専門家混合) アーキテクチャに基づく大規模モデルの検討が業界の新しいトレンドになっているのはなぜですか?ラージ ビジョン モデル (LVM) は、一般的な視覚における新たなブレークスルーとなる可能性がありますか? ...過去 6 か月間にリリースされたこのサイトの 2023 PRO メンバー ニュースレターから、上記の分野の技術トレンドと業界の変化を詳細に分析し、新しい分野での目標を達成するのに役立つ 10 の特別な解釈を選択しました。準備してください。この解釈は 2023 年の Week50 からのものです

Transformer に基づく浙江大学の化学逆合成予測モデルは、Nature サブジャーナルで 60.8% に達しました。 Transformer に基づく浙江大学の化学逆合成予測モデルは、Nature サブジャーナルで 60.8% に達しました。 Aug 06, 2024 pm 07:34 PM

編集者 | KX 逆合成は創薬や有機合成において重要なタスクであり、そのプロセスを高速化するために AI の使用が増えています。既存の AI 手法はパフォーマンスが不十分で、多様性が限られています。実際には、化学反応は多くの場合、反応物と生成物の間にかなりの重複を伴​​う局所的な分子変化を引き起こします。これに触発されて、浙江大学のHou Tingjun氏のチームは、単一ステップの逆合成予測を分子列編集タスクとして再定義し、標的分子列を反復的に改良して前駆体化合物を生成することを提案した。そして、高品質かつ多様な予測を実現できる編集ベースの逆合成モデルEditRetroを提案する。広範な実験により、このモデルが標準ベンチマーク データ セット USPTO-50 K で優れたパフォーマンスを達成し、トップ 1 の精度が 60.8% であることが示されました。

See all articles