目次
本体フレームワーク
ホームページ テクノロジー周辺機器 AI さまざまなスタイルの VCT ガイダンスを 1 つの画像で簡単に導入できます。

さまざまなスタイルの VCT ガイダンスを 1 つの画像で簡単に導入できます。

Aug 22, 2023 pm 01:49 PM
画像 研究

近年、画像生成テクノロジーは多くの重要な進歩を遂げてきました。特に、DALLE2 や Stable Diffusion などの大型モデルのリリース以来、テキスト生成画像技術は徐々に成熟しており、高品質画像生成には幅広い実用的なシナリオがあります。しかし、既存の画像の詳細な編集は依然として困難な問題です

一方で、テキスト記述の制限により、既存の高品質テキスト画像モデルは、画像を説明的に編集するにはテキストのみを使用できますが、特定の効果についてはテキストで説明するのが困難です。一方、実際のアプリケーション シナリオでは、 画像調整編集タスクには参照画像が少数しかないことがよくあります。 これにより、データ量が少ない場合、特に参照画像が 1 つしかない場合、トレーニングに大量のデータを必要とする多くのソリューションが機能することが困難になります。

最近、NetEase Interactive Entertainment AI Lab の研究者は、単一の画像ガイダンスに基づいた 画像間編集ソリューションを提案しました。単一の参照画像が与えられた場合、オブジェクトまたはスタイルを転送します。ソース イメージの全体的な構造を変更することなく、参照イメージをソース イメージに変換します。 研究論文は ICCV 2023 に受理され、関連コードはオープンソースになりました。

  • 論文アドレス: https://arxiv.org/abs/2307.14352
  • コードアドレス: https://github.com/CrystalNeuro/visual-concept-translator

まず一連の写真を見て、その効果を感じてみましょう。

さまざまなスタイルの VCT ガイダンスを 1 つの画像で簡単に導入できます。

論文のレンダリング: 各画像セットの左上隅がソース画像、左下隅が参照画像、右隅が参照画像です。側面は生成された結果の画像です

本体フレームワーク

論文の著者は、Inversion-に基づく画像編集フレームワークを提案しました。フュージョン (反転-融合) - VCT (ビジュアル コンセプト トランスレータ、ビジュアル コンセプト コンバータ)。 下図に示すように、VCT の全体的な枠組みには、内容概念反転処理 (Content-concept Inversion) と内容概念融合処理 (Content-concept Fusion) の 2 つの処理が含まれます。内容概念反転プロセスでは、2 つの異なる反転アルゴリズムを使用して、元の画像の構造情報と参照画像の意味情報の潜在ベクトルをそれぞれ学習して表現します。内容概念融合プロセスでは、構造情報の潜在ベクトルを使用します。およびセマンティック情報を融合して最終結果を生成します。

さまざまなスタイルの VCT ガイダンスを 1 つの画像で簡単に導入できます。

書き直す必要がある内容は次のとおりです: 論文の主要なフレームワーク

です。近年、反転手法は敵対的生成ネットワーク (GAN) の分野で広く使用されており、多くの画像生成タスクで顕著な成果を上げています [1]。 GAN がコンテンツを書き換えるときは、元のテキストを中国語に書き換える必要があります。元の文章を表示する必要はありません。訓練された GAN ジェネレーターの隠れた空間に画像をマッピングでき、編集の目的は、学習済みの GAN ジェネレーターを制御することで達成できます。隠れた空間。この反転スキームは、事前トレーニングされた生成モデルの生成能力を最大限に活用できます。この研究は実際に内容をGANで書き換えたものであり、原文を中国語に書き換える必要があり、原文の出現は不要であり、拡散モデルをアプリオリとした画像誘導に基づく画像編集作業に適用されている


さまざまなスタイルの VCT ガイダンスを 1 つの画像で簡単に導入できます。

内容を書き換える場合、原文を中国語に書き直す必要があり、元の文章を書き直す必要はありません。

## 手法の紹介

反転のアイデアに基づいて、VCT は 2 分岐拡散プロセスを設計しました。コンテンツ再構築用のブランチ B* と編集用のメイン ブランチ B。これらは、それぞれコンテンツ再構築のために、拡散モデルを使用して画像からノイズを計算するアルゴリズムである DDIM Inversion[2] から得られた同じノイズ xT から始まります。そしてコンテンツ編集。この論文で使用される事前トレーニング モデルは潜在拡散モデル (LDM) です。拡散プロセスは潜在ベクトル空間 z 空間で発生します。二重分岐プロセスは次のように表現できます:

さまざまなスタイルの VCT ガイダンスを 1 つの画像で簡単に導入できます。


さまざまなスタイルの VCT ガイダンスを 1 つの画像で簡単に導入できます。#

二重分岐拡散プロセス

コンテンツ再構成ブランチ B* は、コンテンツの構造を復元するために使用される T 個のコンテンツ特徴ベクトル さまざまなスタイルの VCT ガイダンスを 1 つの画像で簡単に導入できます。 を学習します。元の画像情報を取得し、その構造情報をソフト アテンション コントロール スキームを通じて編集メイン ブランチ B に渡します。ソフト アテンション コントロール スキームは、Google のプロンプト 2 プロンプト [3] の成果を利用しています。式は次のとおりです:

さまざまなスタイルの VCT ガイダンスを 1 つの画像で簡単に導入できます。

つまり、拡散のステップ数がモデルが特定の範囲内にある場合、編集メインブランチの注目特徴マップをコンテンツ再構成ブランチの特徴マップに置き換えて、生成された画像の構造制御を実現します。編集メインブランチ B は、原画像から学習した内容特徴ベクトル さまざまなスタイルの VCT ガイダンスを 1 つの画像で簡単に導入できます。 と参照画像から学習した概念特徴ベクトル さまざまなスタイルの VCT ガイダンスを 1 つの画像で簡単に導入できます。 を組み合わせて編集画像を生成します。

さまざまなスタイルの VCT ガイダンスを 1 つの画像で簡単に導入できます。

#ノイズ空間 (さまざまなスタイルの VCT ガイダンスを 1 つの画像で簡単に導入できます。スペース) フュージョン

# 拡散していますモデルの各ステップで、ノイズ空間内で特徴ベクトルの融合が発生します。これは、特徴ベクトルが拡散モデルに入力された後に予測されるノイズの重み付けです。コンテンツ再構築ブランチの特徴混合は、コンテンツ特徴ベクトル さまざまなスタイルの VCT ガイダンスを 1 つの画像で簡単に導入できます。 と空のテキスト ベクトルで発生します。これは、分類子なしの拡散ガイダンス [4] の形式と一致しています。

さまざまなスタイルの VCT ガイダンスを 1 つの画像で簡単に導入できます。

編集メイン ブランチの混合物は、コンテンツ特徴ベクトル

と概念特徴ベクトル さまざまなスタイルの VCT ガイダンスを 1 つの画像で簡単に導入できます。 の混合物です。 、つまり さまざまなスタイルの VCT ガイダンスを 1 つの画像で簡単に導入できます。

さまざまなスタイルの VCT ガイダンスを 1 つの画像で簡単に導入できます。

現時点では、構造情報の特徴ベクトルをどのように取得するかが研究の鍵となります。単一のソース画像

# と単一の参照画像から概念情報 さまざまなスタイルの VCT ガイダンスを 1 つの画像で簡単に導入できます。 の特徴ベクトルを取得します。この記事では、2 つの異なる反転スキームを通じてこの目的を達成しています。 さまざまなスタイルの VCT ガイダンスを 1 つの画像で簡単に導入できます。

ソース画像を復元するために、この記事では NULL-text[5] 最適化スキームを参照し、適合したソース画像と一致するように T ステージの特徴ベクトルを学習します。ただし、DDIM パスに適合するように空のテキスト ベクトルを最適化する NULL テキストとは異なり、この記事では、ソース イメージの特徴ベクトルを最適化することで、推定されたクリーンな特徴ベクトルを直接適合します。フィッティング式は次のとおりです:

# ##############################

学習構造情報とは異なり、参照画像内の概念情報は、単一の高度に一般化された特徴ベクトルで表す必要があります。拡散モデルの T ステージは、概念特徴ベクトルを共有します。さまざまなスタイルの VCT ガイダンスを 1 つの画像で簡単に導入できます。# ##。この記事は、既存の反転スキーム Textual Inversion [6] と DreamArtist [7] を最適化します。参照画像の内容を表すために多概念特徴ベクトルを使用します。損失関数には、拡散モデルのノイズ推定項と潜在ベクトル空間で推定された再構成損失項が含まれます:

さまざまなスタイルの VCT ガイダンスを 1 つの画像で簡単に導入できます。


実験結果


記事はこのテーマに関するものです置換および様式化タスク ソース画像の構造情報をより適切に維持しながら、コンテンツを参照画像の本体またはスタイルに変換するための実験が行われました。


さまざまなスタイルの VCT ガイダンスを 1 つの画像で簡単に導入できます。

#リライトされた内容: 実験効果に関する論文

以前のソリューションと比較して、この記事で提案する VCT フレームワークには次の利点があります。

(1)

アプリケーションの一般化:

以前の画像編集との比較画像ガイダンスに基づいたタスクを実行するため、VCT はトレーニングに大量のデータを必要とせず、生成品質と汎用性が優れています。これは反転の考え方に基づいており、オープンワールド データで事前トレーニングされた高品質のヴィンセント グラフ モデルに基づいており、実際のアプリケーションでは、より優れた画像編集効果を達成するために 1 つの入力画像と 1 つの参照画像のみが必要です。

(2) 視覚的な精度:

画像の最近のテキスト編集ソリューションと比較して、VCT は参照ガイドとして画像を使用します。画像参照を使用すると、テキストによる説明よりも正確に画像を編集できます。次の図は、VCT と他のソリューションとの比較結果を示しています。

#被験者置換タスクの効果の比較さまざまなスタイルの VCT ガイダンスを 1 つの画像で簡単に導入できます。

#スタイル転送タスクの効果の比較

さまざまなスタイルの VCT ガイダンスを 1 つの画像で簡単に導入できます。

(3) 追加情報は必要ありません:

比較 ガイダンス制御のために追加の制御情報 (マスク マップや深度マップなど) を追加する必要がある最近のソリューションでは、VCT はフュージョン生成のためにソース画像と参照画像から構造情報と意味情報を直接学習します。いくつかの比較結果。このうち、Paint-by-example は、ソース画像のマスク マップを提供することで、対応するオブジェクトを参照画像内のオブジェクトに置き換えます。Controlnet は、線描画や深度マップなどを通じて生成された結果を制御します。VCT は、ソースから直接描画します。画像と参照画像を学習し、追加の制限なしにターゲット画像に融合される構造情報とコンテンツ情報を学習します。 #画像ガイダンスに基づく画像編集スキームの効果の比較

さまざまなスタイルの VCT ガイダンスを 1 つの画像で簡単に導入できます。

NetEase Interactive Entertainment AI Lab

NetEase Interactive Entertainment AI Laboratory は 2017 年に設立されました。NetEase Interactive Entertainment Business Group に所属し、ゲーム業界をリードする人工知能研究所です。この研究室は、コンピューター ビジョン、音声および自然言語処理、ゲーム シナリオにおける強化学習の研究と応用に重点を置いています。 AI技術を通じてNetEase Interactive Entertainmentの人気ゲームや製品の技術レベルを向上させることを目的としています。現在、この技術は、「ファンタジー西遊記」、「ハリー・ポッター:魔法の目覚め」、「陰陽師」、「西遊記」など、多くの人気ゲームで使用されています。

以上がさまざまなスタイルの VCT ガイダンスを 1 つの画像で簡単に導入できます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Windows スポットライトの壁紙画像を PC にダウンロードする方法 Windows スポットライトの壁紙画像を PC にダウンロードする方法 Aug 23, 2023 pm 02:06 PM

窓は決して美観を無視するものではありません。 XP の牧歌的な緑の野原から Windows 11 の青い渦巻くデザインに至るまで、デフォルトのデスクトップの壁紙は長年にわたってユーザーの喜びの源でした。 Windows スポットライトを使用すると、ロック画面やデスクトップの壁紙に使用する美しく荘厳な画像に毎日直接アクセスできるようになります。残念ながら、これらの画像は表示されません。 Windows スポットライト画像の 1 つが気に入った場合は、その画像をダウンロードして、しばらく背景として保存できるようにする方法を知りたいと思うでしょう。知っておくべきことはすべてここにあります。 Windowsスポットライトとは何ですか? Window Spotlight は、設定アプリの [個人設定] &gt から利用できる自動壁紙アップデーターです。

モデル、データ、フレームワークの詳細: 効率的な大規模言語モデルの 54 ページにわたる徹底的なレビュー モデル、データ、フレームワークの詳細: 効率的な大規模言語モデルの 54 ページにわたる徹底的なレビュー Jan 14, 2024 pm 07:48 PM

大規模言語モデル (LLM) は、自然言語理解、言語生成、複雑な推論などの多くの重要なタスクにおいて説得力のある能力を実証し、社会に大きな影響を与えてきました。ただし、これらの優れた機能には、大量のトレーニング リソース (左の図に示す) と長い推論時間 (右の図に示す) が必要です。したがって、研究者は効率の問題を解決するための効果的な技術的手段を開発する必要があります。さらに、図の右側からわかるように、Mistral-7B などのいくつかの効率的な LLM (LanguageModel) が、LLM の設計と展開にうまく使用されています。これらの効率的な LLM は、LLaMA1-33B と同様の精度を維持しながら、推論メモリを大幅に削減できます。

Python で画像セマンティック セグメンテーション テクノロジを使用するにはどうすればよいですか? Python で画像セマンティック セグメンテーション テクノロジを使用するにはどうすればよいですか? Jun 06, 2023 am 08:03 AM

人工知能技術の継続的な発展に伴い、画像セマンティックセグメンテーション技術は画像分析分野で人気の研究方向となっています。画像セマンティック セグメンテーションでは、画像内のさまざまな領域をセグメント化し、各領域を分類して、画像の包括的な理解を実現します。 Python はよく知られたプログラミング言語であり、その強力なデータ分析機能とデータ視覚化機能により、人工知能技術研究の分野で最初に選択されます。この記事では、Python で画像セマンティック セグメンテーション技術を使用する方法を紹介します。 1. 前提知識が深まる

H100 を粉砕、Nvidia の次世代 GPU が明らかに!最初の 3nm マルチチップ モジュール設計、2024 年に発表 H100 を粉砕、Nvidia の次世代 GPU が明らかに!最初の 3nm マルチチップ モジュール設計、2024 年に発表 Sep 30, 2023 pm 12:49 PM

3nmプロセス、H100を超える性能!最近、海外メディア DigiTimes が、Nvidia が人工知能 (AI) およびハイパフォーマンス コンピューティング (HPC) アプリケーション向けの製品として、コードネーム「Blackwell」という次世代 GPU である B100 を開発しているというニュースを伝えました。 , B100はTSMCの3nmプロセスと、より複雑なマルチチップモジュール(MCM)設計を採用し、2024年の第4四半期に登場する予定だ。人工知能 GPU 市場の 80% 以上を独占している Nvidia にとって、B100 を使用して鉄は熱いうちに攻撃し、この AI 導入の波において AMD や Intel などの挑戦者をさらに攻撃することができます。 NVIDIA の推定によると、2027 年までに、この分野の生産額は約

マルチモーダル大型モデルの最も包括的なレビューがここにあります。 7 人のマイクロソフト研究者が精力的に協力、5 つの主要テーマ、119 ページの文書 マルチモーダル大型モデルの最も包括的なレビューがここにあります。 7 人のマイクロソフト研究者が精力的に協力、5 つの主要テーマ、119 ページの文書 Sep 25, 2023 pm 04:49 PM

マルチモーダル大型モデルの最も包括的なレビューがここにあります。マイクロソフトの中国人研究者7名が執筆した119ページで、すでに完成し、現在も最前線にある2種類のマルチモーダル大規模モデル研究の方向性から始まり、視覚理解と視覚生成という5つの具体的な研究テーマを包括的にまとめている。統合ビジュアル モデル LLM によってサポートされるマルチモーダル大規模モデル マルチモーダル エージェントは、マルチモーダル基本モデルが特殊なモデルから汎用的なモデルに移行したという現象に焦点を当てています。 Ps. 著者が論文の冒頭に直接ドラえもんの絵を描いたのはこのためである。このレビュー (レポート) は誰が読むべきですか? Microsoft の原文では次のようになります。プロの研究者でも学生でも、マルチモーダル基本モデルの基礎知識と最新の進歩を学ぶことに興味がある限り、このコンテンツは参加するのに非常に適しています。

Windows で PowerToys を使用して画像のサイズを一括変更する方法 Windows で PowerToys を使用して画像のサイズを一括変更する方法 Aug 23, 2023 pm 07:49 PM

日常的に画像ファイルを扱う必要がある人は、プロジェクトや仕事のニーズに合わせて画像ファイルのサイズを変更する必要があることがよくあります。ただし、処理する画像が多すぎる場合、画像を個別にサイズ変更すると、多くの時間と労力がかかる可能性があります。この場合、PowerToys のようなツールは、画像サイズ変更ユーティリティを使用して画像ファイルのサイズをバッチで変更するのに役立ちます。 Image Resizer 設定をセットアップし、PowerToys を使用して画像のバッチ サイズ変更を開始する方法は次のとおりです。 PowerToys を使用して画像のサイズをバッチ変更する方法 PowerToys は、日常業務のスピードアップに役立つさまざまなユーティリティと機能を備えたオールインワン プログラムです。そのユーティリティの 1 つは画像です

iOS 17: 写真でワンクリックトリミングを使用する方法 iOS 17: 写真でワンクリックトリミングを使用する方法 Sep 20, 2023 pm 08:45 PM

iOS 17 の写真アプリを使用すると、Apple は写真を仕様に合わせて簡単にトリミングできるようになります。その方法については、読み続けてください。以前の iOS 16 では、写真アプリで画像をトリミングするにはいくつかの手順が必要でした。編集インターフェイスをタップし、トリミング ツールを選択し、ピンチでズームするジェスチャまたはトリミング ツールの角をドラッグしてトリミングを調整します。 iOS 17 では、Apple がありがたいことにこのプロセスを簡素化し、写真ライブラリで選択した写真を拡大すると、画面の右上隅に新しい切り抜きボタンが自動的に表示されるようになりました。クリックすると、選択したズームレベルで完全なトリミングインターフェイスが表示されるので、画像の好きな部分をトリミングしたり、画像を回転したり、画像を反転したり、画面比率を適用したり、マーカーを使用したりできます。

SD コミュニティの I2V アダプター: 設定不要、プラグアンドプレイ、Tusheng ビデオ プラグインと完全に互換性あり SD コミュニティの I2V アダプター: 設定不要、プラグアンドプレイ、Tusheng ビデオ プラグインと完全に互換性あり Jan 15, 2024 pm 07:48 PM

画像からビデオへの生成 (I2V) タスクは、静止画像を動的なビデオに変換することを目的としたコンピューター ビジョンの分野における課題です。このタスクの難しさは、画像コンテンツの信頼性と視覚的な一貫性を維持しながら、単一の画像から時間次元で動的な情報を抽出して生成することです。既存の I2V 手法では、多くの場合、この目標を達成するために複雑なモデル アーキテクチャと大量のトレーニング データが必要になります。最近、Kuaishou が主導した新しい研究成果「I2V-Adapter: AGeneralImage-to-VideoAdapter for VideoDiffusionModels」が発表されました。この研究では、革新的な画像からビデオへの変換方法を導入し、軽量のアダプター モジュールを提案します。

See all articles