目次
Imagic Paper の概要
方法の詳細
実験結果
ホームページ テクノロジー周辺機器 AI 止められない!拡散モデルを使用すると、テキストのみを使用して写真を Photoshop で作成できます

止められない!拡散モデルを使用すると、テキストのみを使用して写真を Photoshop で作成できます

Apr 11, 2023 pm 08:01 PM
ai モデル

止められない!拡散モデルを使用すると、テキストのみを使用して写真を Photoshop で作成できます

当事者 A と当事者 B の共通の願いは、言葉だけで状況を改善できることですが、通常、当事者 B だけがその内容を知っています。痛みや悲しみが伴う。今日、AI がこの困難な問題への挑戦を開始しました。

10 月 17 日に arXiv にアップロードされた論文で、Google Research、イスラエル工科大学、イスラエルのワイツマン科学研究所の研究者は、実際の画像編集に基づく手法を紹介しました。拡散モデルの手法 - Imagic は、人に親指を立てさせたり、2 羽のオウムにキスさせたりするなど、テキストのみを使用して実際の写真の PS を実現できます:

止められない!拡散モデルを使用すると、テキストのみを使用して写真を Photoshop で作成できます

「いいね!のジェスチャーを手伝ってください。」 普及モデル: 問題ありません、私がカバーします。

#論文の画像から、変更された画像は依然として非常に自然であり、情報に明らかな損傷がないことがわかります。変更が必要な内容。同様の研究には、Google Research とイスラエルのテルアビブ大学によって以前に完了した Prompt-to-Prompt が含まれます (Imagic 論文の参考文献 [16]):

止められない!拡散モデルを使用すると、テキストのみを使用して写真を Photoshop で作成できます

プロジェクトリンク (論文とコードを含む): https://prompt-to-prompt.github.io/

したがって、ある人は感情を込めてこう言いました。 「この分野はあまりにも急速に変化しているので、少し大袈裟です。」これからは、甲は本当に言葉だけでどんな変化も起こすことができるのです。

Imagic Paper の概要

止められない!拡散モデルを使用すると、テキストのみを使用して写真を Photoshop で作成できます

##論文リンク: https://arxiv.org / pdf/2210.09276.pdf

#実際の写真に実質的なセマンティック編集を適用することは、画像処理において常に興味深い作業でした。近年、深層学習ベースのシステムが大幅に進歩したため、このタスクは研究コミュニティから大きな関心を集めています。

単純な自然言語テキスト プロンプトを使用して、必要なエディターを説明する (犬に座るように頼むなど) ことは、人間のコミュニケーション方法と非常に一致しています。したがって、研究者はテキストベースの画像編集方法を数多く開発しており、これらの方法も効果的です。

ただし、現在の主流の方法には次のような多かれ少なかれ問題があります:

1. 特定の編集セットに限定されます。画像へのペイント、オブジェクトの追加、またはスタイルの転送として [6, 28];

2. 特定のフィールドの画像または合成画像のみを操作できます [16, 36 ];

3. 入力画像に加えて、目的の編集位置を示す画像マスク、同じ被写体の複数の画像、元の画像を説明するテキストなどの補助入力も必要です。 6、13、40、44]。

本稿では、上記の問題を軽減するための意味的画像編集手法「Imagic」を提案します。編集対象の入力画像とターゲット編集を説明する単一のテキスト プロンプトが与えられると、この方法により、実際の高解像度画像の複雑で非固定的な編集が可能になります。結果として得られる画像出力は、元の画像の全体的なコンテキスト、構造、構成を維持しながら、ターゲット テキストとよく一致します。

図 1 に示すように、Imagic は 2 羽のオウムにキスをさせたり、人に親指を立てさせたりすることができます。これが提供するテキストベースのセマンティック編集は、複数のオブジェクトの編集を含むこのような複雑な操作を単一の実際の高解像度画像に適用できるのは初めてです。これらの複雑な変更に加えて、Imagic ではスタイルの変更、色の変更、オブジェクトの追加など、さまざまな編集が可能です。

止められない!拡散モデルを使用すると、テキストのみを使用して写真を Photoshop で作成できます

#この偉業を達成するために、研究者らは最近成功したテキストから画像への拡散モデルを活用しました。拡散モデルは、高品質の画像合成が可能な強力な生成モデルです。自然言語テキスト プロンプトを条件にすると、要求されたテキストと一致する画像を生成できます。この研究では、研究者らは新しい画像を合成するのではなく、実際の画像を編集するためにそれらを使用しました。

図 3 に示すように、Imagic は上記のタスクを完了するのに 3 つのステップだけを必要とします。まず、テキストの埋め込みを最適化して、入力画像と同様の画像を生成します。事前トレーニングされた生成拡散モデルは、最適化された埋め込みを条件として、入力画像をより適切に再構築するために微調整されます。最後に、ターゲット テキストの埋め込みと最適化された埋め込みの間で線形補間が実行され、入力画像とターゲット テキストを組み合わせた表現が得られます。この表現は、微調整されたモデルを使用した生成拡散プロセスに渡され、最終的に編集された画像が出力されます。

Imagic の力を証明するために、研究者らはこの方法をさまざまな分野の多数の画像に適用していくつかの実験を行い、すべての実験で印象的な結果をもたらしました。 Imagic によって出力される高品質の画像は、入力画像と非常に類似しており、必要なターゲット テキストと一致しています。これらの結果は、Imagic の多用途性、汎用性、品質を示しています。研究者らはまた、提案された方法の各コンポーネントの有効性を強調するアブレーション研究も実施しました。最近のさまざまな方法と比較して、Imagic は、特に非常に複雑で厳密でない編集作業を行う場合に、大幅に優れた編集品質と元の画像の忠実度を示します。

方法の詳細

入力画像 x とターゲット テキストが与えられた場合、この記事は、画像 x を保持しながら、指定されたテキストを満たす方法で画像を編集することを目的としています。詳細がたくさんあります。この目標を達成するために、この論文では、拡散モデルのテキスト埋め込み層を利用して、GAN ベースの方法にやや似た方法でセマンティック操作を実行します。研究者は、意味のある表現を探すことから始めて、入力画像に似た画像を生成する生成プロセスを経ます。次に、入力画像をより適切に再構築するために生成モデルが最適化され、最後のステップでは潜在表現を処理して編集結果を取得します。

上の図 3 に示すように、私たちの方法は 3 つの段階で構成されています: (1) テキスト埋め込みを最適化して、ターゲットのテキスト埋め込みの近くで指定された画像に最もよく一致するテキスト埋め込みを見つけます。 2) 与えられた画像によりよく一致するように拡散モデルを微調整する; (3) 最適化された埋め込みとターゲット テキストの埋め込みの間を線形補間して、画像の忠実性とターゲット テキストの位置合わせの両方を達成する埋め込みを見つけます。

具体的な詳細は次のとおりです。

テキスト埋め込みの最適化

まず、ターゲット テキストがテキスト エンコーダに入力され、対応するテキスト埋め込み 止められない!拡散モデルを使用すると、テキストのみを使用して写真を Photoshop で作成できます が出力されます。ここで、T は指定されたターゲット テキストのトークンの数、d はトークン埋め込みの次元です。次に、研究者らは、生成された拡散モデル f_θ のパラメーターを凍結し、ノイズ除去拡散目標を使用してターゲット テキストの埋め込み e_tgt

止められない!拡散モデルを使用すると、テキストのみを使用して写真を Photoshop で作成できます

を最適化しました。

ここで、x は入力画像、止められない!拡散モデルを使用すると、テキストのみを使用して写真を Photoshop で作成できます は x のノイズ バージョン、θ は事前にトレーニングされた拡散モデルの重みです。これにより、テキストの埋め込みが入力画像と可能な限り一致します。このプロセスは比較的少ないステップで実行され、元のターゲット テキストの埋め込みに近い状態を保ち、その結果、最適化された埋め込み e_opt が得られます。

モデルの微調整

ここで取得される最適化された埋め込み e_opt は、次の方法で生成されることに注意してください。拡散プロセスでは、少数の最適化ステップしか実行されないため、必ずしも入力画像 x と正確に類似しているわけではありません (図 5 の左上の画像を参照)。したがって、第 2 段階では、最適化の埋め込みを凍結しながら、式 (2) で提供される同じ損失関数を使用してモデル パラメーター θ を最適化することで、このギャップを埋めます。

止められない!拡散モデルを使用すると、テキストのみを使用して写真を Photoshop で作成できます

テキスト埋め込み補間

Imagic の 3 番目の段階は実行ですe_tgt と e_opt 間の単純な線形補間。特定のハイパーパラメータ 止められない!拡散モデルを使用すると、テキストのみを使用して写真を Photoshop で作成できます に対して、止められない!拡散モデルを使用すると、テキストのみを使用して写真を Photoshop で作成できます を取得します。次に、著者らは、止められない!拡散モデルを使用すると、テキストのみを使用して写真を Photoshop で作成できます を条件として微調整されたモデルを使用して、基本的な生成拡散プロセスを適用します。これにより、低解像度の編集画像が生成され、その後、微調整された補助モデルを使用して超解像され、ターゲット テキストが超解像されます。この生成プロセスにより、最終的な高解像度編集画像 止められない!拡散モデルを使用すると、テキストのみを使用して写真を Photoshop で作成できます が出力されます。

実験結果

効果をテストするために、研究者らはこの方法をさまざまな分野の多数の実際の写真に適用し、さまざまな内容を説明する単純なテキストプロンプトを使用しました。スタイル、外観、色、姿勢、構成などのカテゴリを編集します。彼らは、Unsplash と Pixabay から無料で使用できる高解像度の画像を収集し、5 つのランダム シードを使用して各編集を生成するように画像を最適化し、最良の結果を選択しました。 Imagic は、図 1 と 7 に示すように、一般的な入力画像とテキストにさまざまな編集カテゴリを適用する機能により、優れた結果を示します。

止められない!拡散モデルを使用すると、テキストのみを使用して写真を Photoshop で作成できます

図 2 は、同じ画像上でさまざまなテキスト プロンプトを使用した実験であり、Imagic の多用途性を示しています。

止められない!拡散モデルを使用すると、テキストのみを使用して写真を Photoshop で作成できます

研究者が使用している基本的な生成拡散モデルは確率に基づいているため、この方法は単一の場合に使用できます。画像とテキストのペアによって異なる結果が生成されます。図 4 は、さまざまなランダム シードを使用した編集のためのいくつかのオプションを示しています (シードごとにイータをわずかに調整します)。自然言語のテキスト プロンプトは一般的に曖昧で不正確であるため、このランダム性により、ユーザーはこれらの異なるオプションから選択することができます。

止められない!拡散モデルを使用すると、テキストのみを使用して写真を Photoshop で作成できます

研究では、実世界の画像の単一入力について、Imagic と現在主要な汎用手法を比較しました。アクションを選択し、テキスト プロンプトに基づいて編集します。図 6 は、Text2LIVE[7] や SDEdit[32] などのさまざまなメソッドの編集結果を示しています。

私たちの方法は、必要な編集を適切に実行しながら、入力画像に対する高い忠実度を維持していることがわかります。 「犬を座らせる」などの複雑で厳密ではない編集タスクが与えられた場合、私たちの方法は以前の技術を大幅に上回ります。 Imagic は、この高度なテキストベースの編集を単一の実世界の画像に適用する最初のデモです。

止められない!拡散モデルを使用すると、テキストのみを使用して写真を Photoshop で作成できます

以上が止められない!拡散モデルを使用すると、テキストのみを使用して写真を Photoshop で作成できますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

vue.jsのストリングをオブジェクトに変換するためにどのような方法が使用されますか? vue.jsのストリングをオブジェクトに変換するためにどのような方法が使用されますか? Apr 07, 2025 pm 09:39 PM

vue.jsのオブジェクトに文字列を変換する場合、標準のjson文字列にはjson.parse()が推奨されます。非標準のJSON文字列の場合、文字列は正規表現を使用して処理し、フォーマットまたはデコードされたURLエンコードに従ってメソッドを削減できます。文字列形式に従って適切な方法を選択し、バグを避けるためにセキュリティとエンコードの問題に注意してください。

リモートシニアバックエンジニア(プラットフォーム)がサークルが必要です リモートシニアバックエンジニア(プラットフォーム)がサークルが必要です Apr 08, 2025 pm 12:27 PM

リモートシニアバックエンジニアの求人事業者:サークル場所:リモートオフィスジョブタイプ:フルタイム給与:$ 130,000- $ 140,000職務記述書サークルモバイルアプリケーションとパブリックAPI関連機能の研究開発に参加します。ソフトウェア開発ライフサイクル全体をカバーします。主な責任は、RubyonRailsに基づいて独立して開発作業を完了し、React/Redux/Relay Front-Endチームと協力しています。 Webアプリケーションのコア機能と改善を構築し、機能設計プロセス全体でデザイナーとリーダーシップと緊密に連携します。肯定的な開発プロセスを促進し、反復速度を優先します。 6年以上の複雑なWebアプリケーションバックエンドが必要です

vue.js文字列タイプの配列をオブジェクトの配列に変換する方法は? vue.js文字列タイプの配列をオブジェクトの配列に変換する方法は? Apr 07, 2025 pm 09:36 PM

概要:Vue.js文字列配列をオブジェクト配列に変換するための次の方法があります。基本方法:定期的なフォーマットデータに合わせてマップ関数を使用します。高度なゲームプレイ:正規表現を使用すると、複雑な形式を処理できますが、慎重に記述して考慮する必要があります。パフォーマンスの最適化:大量のデータを考慮すると、非同期操作または効率的なデータ処理ライブラリを使用できます。ベストプラクティス:コードスタイルをクリアし、意味のある変数名とコメントを使用して、コードを簡潔に保ちます。

インストール後にMySQLの使用方法 インストール後にMySQLの使用方法 Apr 08, 2025 am 11:48 AM

この記事では、MySQLデータベースの操作を紹介します。まず、MySQLWorkBenchやコマンドラインクライアントなど、MySQLクライアントをインストールする必要があります。 1. mysql-uroot-pコマンドを使用してサーバーに接続し、ルートアカウントパスワードでログインします。 2。CreatedAtaBaseを使用してデータベースを作成し、データベースを選択します。 3. createTableを使用してテーブルを作成し、フィールドとデータ型を定義します。 4. INSERTINTOを使用してデータを挿入し、データをクエリし、更新することでデータを更新し、削除してデータを削除します。これらの手順を習得することによってのみ、一般的な問題に対処することを学び、データベースのパフォーマンスを最適化することでMySQLを効率的に使用できます。

Laravelの地理空間:インタラクティブマップと大量のデータの最適化 Laravelの地理空間:インタラクティブマップと大量のデータの最適化 Apr 08, 2025 pm 12:24 PM

700万のレコードを効率的に処理し、地理空間技術を使用したインタラクティブマップを作成します。この記事では、LaravelとMySQLを使用して700万を超えるレコードを効率的に処理し、それらをインタラクティブなマップの視覚化に変換する方法について説明します。最初の課題プロジェクトの要件:MySQLデータベースに700万のレコードを使用して貴重な洞察を抽出します。多くの人は最初に言語をプログラミングすることを検討しますが、データベース自体を無視します。ニーズを満たすことができますか?データ移行または構造調​​整は必要ですか? MySQLはこのような大きなデータ負荷に耐えることができますか?予備分析:キーフィルターとプロパティを特定する必要があります。分析後、ソリューションに関連している属性はわずかであることがわかりました。フィルターの実現可能性を確認し、検索を最適化するためにいくつかの制限を設定しました。都市に基づくマップ検索

VueおよびElement-UIカスケードドロップダウンボックスVモデルバインディング VueおよびElement-UIカスケードドロップダウンボックスVモデルバインディング Apr 07, 2025 pm 08:06 PM

VueとElement-UIカスケードドロップダウンボックスv-Modelバインディング共通ピットポイント:V-Modelは、文字列ではなく、カスケード選択ボックスの各レベルで選択した値を表す配列をバインドします。 SelectedOptionsの初期値は、nullまたは未定義ではなく、空の配列でなければなりません。データの動的読み込みには、非同期でデータの更新を処理するために非同期プログラミングスキルを使用する必要があります。膨大なデータセットの場合、仮想スクロールや怠zyな読み込みなどのパフォーマンス最適化手法を考慮する必要があります。

MySQLインストール後にデータベースのパフォーマンスを最適化する方法 MySQLインストール後にデータベースのパフォーマンスを最適化する方法 Apr 08, 2025 am 11:36 AM

MySQLパフォーマンスの最適化は、インストール構成、インデックス作成、クエリの最適化、監視、チューニングの3つの側面から開始する必要があります。 1。インストール後、INNODB_BUFFER_POOL_SIZEパラメーターやclose query_cache_sizeなど、サーバーの構成に従ってmy.cnfファイルを調整する必要があります。 2。過度のインデックスを回避するための適切なインデックスを作成し、説明コマンドを使用して実行計画を分析するなど、クエリステートメントを最適化します。 3. MySQL独自の監視ツール(ShowProcessList、ShowStatus)を使用して、データベースの健康を監視し、定期的にデータベースをバックアップして整理します。これらの手順を継続的に最適化することによってのみ、MySQLデータベースのパフォーマンスを改善できます。

MySQLを解決する方法は開始できません MySQLを解決する方法は開始できません Apr 08, 2025 pm 02:21 PM

MySQLの起動が失敗する理由はたくさんあり、エラーログをチェックすることで診断できます。一般的な原因には、ポートの競合(ポート占有率をチェックして構成の変更)、許可の問題(ユーザー許可を実行するサービスを確認)、構成ファイルエラー(パラメーター設定のチェック)、データディレクトリの破損(テーブルスペースの復元)、INNODBテーブルスペースの問題(IBDATA1ファイルのチェック)、プラグインロード障害(エラーログのチェック)が含まれます。問題を解決するときは、エラーログに基づいてそれらを分析し、問題の根本原因を見つけ、問題を防ぐために定期的にデータをバックアップする習慣を開発する必要があります。

See all articles