目次
方法の概要
実験結果
ホームページ テクノロジー周辺機器 AI GPT-3 と安定拡散は連携して、モデルが当事者 A の画像レタッチのニーズを理解できるように支援します。

GPT-3 と安定拡散は連携して、モデルが当事者 A の画像レタッチのニーズを理解できるように支援します。

Apr 12, 2023 pm 02:55 PM
ai モデル

普及モデルの人気の後、多くの人は、より効果的なプロンプトを使用して必要な画像を生成する方法に焦点を当ててきました。いくつかの AI 絵画モデルの継続的な試みの中で、人々は AI に絵を上手に描くためのキーワード エクスペリエンスを要約しています:

GPT-3 と安定拡散は連携して、モデルが当事者 A の画像レタッチのニーズを理解できるように支援します。

つまり、正しい AI スキルを習得すれば、描画の品質向上の効果は非常に明らかです (参照: 「 「バスケットボールをするアルパカ」の描画方法? 誰かが 13 ドルを費やしてフォース DALL・E 2 あなたの本当のスキルを見せてください 》)。

さらに、一部の研究者は別の方向、つまり、ほんの数語で絵画を望み通りに変える方法に取り組んでいます。

少し前に、Google Research およびその他の機関からの 調査について報告しました 。画像をどのように見せたいかを指定するだけで、基本的に希望どおりの処理が実行され、たとえば座っている子犬の写実的な画像が生成されます。

GPT-3 と安定拡散は連携して、モデルが当事者 A の画像レタッチのニーズを理解できるように支援します。

ここでモデルに与えられた入力説明は「座る犬」ですが、人々の日常のコミュニケーション習慣によれば、最も自然な説明は「この犬を座らせてください」であるはずです。研究者の中には、これは最適化されるべき問題であり、モデルは人間の言語習慣により沿ったものであるべきだと考える人もいます。

最近、カリフォルニア大学バークレー校の研究チームは、人間の指示に基づいて画像を編集する新しい方法を提案しました。 InstructPix2Pix: 入力画像と、モデルに何をすべきかを指示するテキストの説明が与えられると、モデル 説明の指示に従って画像を編集する能力。

GPT-3 と安定拡散は連携して、モデルが当事者 A の画像レタッチのニーズを理解できるように支援します。

論文アドレス: https://arxiv.org/pdf/2211.09800.pdf ##たとえば、絵の中のひまわりをバラに変更するには、モデルに「ひまわりをバラに変更して」と直接言うだけです:

GPT-3 と安定拡散は連携して、モデルが当事者 A の画像レタッチのニーズを理解できるように支援します。トレーニング データを取得するために、この研究では、言語モデル (GPT-3) とテキストから画像への生成モデル (安定拡散) という 2 つの大規模な事前トレーニング済みモデルを組み合わせて、大規模なペアごとのトレーニング データセットを生成します。画像編集例です。研究者らは、この大規模なデータセットで新しいモデル InstructPix2Pix をトレーニングし、実際の画像と推論時にユーザーが作成した命令に一般化しました。

InstructPix2Pix は、入力画像と画像を編集するためのテキスト命令が与えられると、編集済み画像を生成する条件付き拡散モデルです。モデルは、フォワード パスで直接画像編集を実行し、追加のサンプル画像、入出力画像の完全な説明、各サンプルの微調整を必要としないため、モデルはわずか数秒で画像を迅速に編集できます。

InstructPix2Pix は完全に合成例 (つまり、GPT-3 によって生成されたテキストの説明と安定拡散によって生成された画像) でトレーニングされていますが、モデルは任意の実際のサンプルでのトレーニングの精度を達成します。画像と人間が書いたテキストへのゼロショット一般化。モックアップは、オブジェクトの置換や画像スタイルの変更など、直感的な画像編集をサポートします。

方法の概要

研究者らは、命令ベースの画像編集を教師あり学習問題として扱いました。まず、テキスト編集命令と編集前後の画像を含むペアのトレーニング データセットを生成しました (図 2a- c) そして、この生成されたデータセットで画像編集拡散モデルをトレーニングしました (図 2d)。モデルは生成された画像と編集命令を使用してトレーニングされていますが、人間が作成した任意の命令を使用して実際の画像を編集することができます。以下の図 2 は、この方法の概要です。

GPT-3 と安定拡散は連携して、モデルが当事者 A の画像レタッチのニーズを理解できるように支援します。

マルチモーダル トレーニング データ セットを生成します

データ セット生成段階では、研究者らは大規模言語モデル (GPT-3) とテキストから画像へのモデル (安定拡散) の機能を組み合わせて、テキスト編集命令と対応する画像を含むマルチモーダル トレーニング データ セットを生成しました。編集前と編集後。このプロセスは次の手順で構成されます。

  • GPT-3 を微調整してテキスト編集のコレクションを生成します。画像を説明するプロンプトが表示され、変更を説明するテキストを生成します。作成するコマンドと、変更された画像を説明するプロンプト (図 2a);
  • テキストから画像へのモデルを使用して、2 つのテキスト プロンプト (編集前と編集後) を変換します。対応するペア画像に変換します (図 2b)。

InstructPix2Pix

研究者らは、生成されたトレーニング データを使用して、条件付き拡散モデルをトレーニングしました。安定拡散モデルでは、書面による指示に基づいて画像を編集できます。

拡散モデルは、データ分布の一部 (高密度データの方向を指す) を推定する一連のノイズ除去オートエンコーダーを通じて、データ サンプルの生成方法を学習します。潜在拡散は、エンコーダー とデコーダー # を備えた事前学習済み変分オートエンコーダーの潜在空間で動作することによって改善されます。 拡散モデルの効率と品質。

画像 x の場合、拡散プロセスによりエンコードされた潜在 にノイズが追加され、ノイズの多い潜在 z_t が生成されます。レベルはタイムステップ t∈T とともに増加します。画像条件付け C_I とテキスト命令条件付け C_T を考慮して、ノイズを含む潜在 z_t に追加されるノイズを予測するネットワーク を学習します。研究者らは、次の潜在的な拡散目標を最小限に抑えました:

GPT-3 と安定拡散は連携して、モデルが当事者 A の画像レタッチのニーズを理解できるように支援します。

以前の研究 (Wang et al.) では、画像翻訳 (画像翻訳) タスクについては、特にペアごとのトレーニング データが限られている場合、大規模な画像拡散モデルを微調整する方が、最初からトレーニングするよりも優れています。したがって、新しい研究では、著者らは事前トレーニングされた安定拡散チェックポイントを使用してモデルの重みを初期化し、その強力なテキストから画像への生成機能を利用しています。

画像調整をサポートするために、研究者らは追加の入力チャネルを最初の畳み込み層に追加し、z_t と GPT-3 と安定拡散は連携して、モデルが当事者 A の画像レタッチのニーズを理解できるように支援します。 を接続しました。拡散モデルの利用可能なすべての重みは事前トレーニングされたチェックポイントから初期化されますが、新しく追加された入力チャネルで動作する重みはゼロに初期化されます。著者はここで、テキスト編集命令 c_T を入力として取らずに、もともとキャプションに使用されていたのと同じテキスト調整メカニズムを再利用します。

実験結果

次の図では、著者らは新しいモデルの画像編集結果を示しています。これらの結果は、実際の写真とアートワークの異なるセットに対するものです。新しいモデルは、オブジェクトの置き換え、季節や天候の変更、背景の置き換え、マテリアルのプロパティの変更、アート メディアの変換など、多くの難しい編集を正常に実行します。

GPT-3 と安定拡散は連携して、モデルが当事者 A の画像レタッチのニーズを理解できるように支援します。

GPT-3 と安定拡散は連携して、モデルが当事者 A の画像レタッチのニーズを理解できるように支援します。

GPT-3 と安定拡散は連携して、モデルが当事者 A の画像レタッチのニーズを理解できるように支援します。

GPT-3 と安定拡散は連携して、モデルが当事者 A の画像レタッチのニーズを理解できるように支援します。

研究者らは、新しい方法を最近のいくつかの方法と比較しました。 SDEdit、Text2Live などのテクノロジーを比較します。新しいモデルは画像編集の指示に従いますが、ベースライン方法を含む他の方法では画像の説明やレイヤーの編集が必要です。したがって、比較する場合、作成者は編集指示の代わりに、後者に対して「編集済み」テキスト注釈を提供します。著者らはまた、画像の一貫性と編集品質を測定する 2 つの指標を使用して、新しい方法と SDEdit を定量的に比較しています。最後に、著者らは、生成されたトレーニング データのサイズと品質がモデルのパフォーマンスにおけるアブレーション結果にどのような影響を与えるかを示しています。

GPT-3 と安定拡散は連携して、モデルが当事者 A の画像レタッチのニーズを理解できるように支援します。

GPT-3 と安定拡散は連携して、モデルが当事者 A の画像レタッチのニーズを理解できるように支援します。

以上がGPT-3 と安定拡散は連携して、モデルが当事者 A の画像レタッチのニーズを理解できるように支援します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

vue.jsのストリングをオブジェクトに変換するためにどのような方法が使用されますか? vue.jsのストリングをオブジェクトに変換するためにどのような方法が使用されますか? Apr 07, 2025 pm 09:39 PM

vue.jsのオブジェクトに文字列を変換する場合、標準のjson文字列にはjson.parse()が推奨されます。非標準のJSON文字列の場合、文字列は正規表現を使用して処理し、フォーマットまたはデコードされたURLエンコードに従ってメソッドを削減できます。文字列形式に従って適切な方法を選択し、バグを避けるためにセキュリティとエンコードの問題に注意してください。

vue.js文字列タイプの配列をオブジェクトの配列に変換する方法は? vue.js文字列タイプの配列をオブジェクトの配列に変換する方法は? Apr 07, 2025 pm 09:36 PM

概要:Vue.js文字列配列をオブジェクト配列に変換するための次の方法があります。基本方法:定期的なフォーマットデータに合わせてマップ関数を使用します。高度なゲームプレイ:正規表現を使用すると、複雑な形式を処理できますが、慎重に記述して考慮する必要があります。パフォーマンスの最適化:大量のデータを考慮すると、非同期操作または効率的なデータ処理ライブラリを使用できます。ベストプラクティス:コードスタイルをクリアし、意味のある変数名とコメントを使用して、コードを簡潔に保ちます。

インストール後にMySQLの使用方法 インストール後にMySQLの使用方法 Apr 08, 2025 am 11:48 AM

この記事では、MySQLデータベースの操作を紹介します。まず、MySQLWorkBenchやコマンドラインクライアントなど、MySQLクライアントをインストールする必要があります。 1. mysql-uroot-pコマンドを使用してサーバーに接続し、ルートアカウントパスワードでログインします。 2。CreatedAtaBaseを使用してデータベースを作成し、データベースを選択します。 3. createTableを使用してテーブルを作成し、フィールドとデータ型を定義します。 4. INSERTINTOを使用してデータを挿入し、データをクエリし、更新することでデータを更新し、削除してデータを削除します。これらの手順を習得することによってのみ、一般的な問題に対処することを学び、データベースのパフォーマンスを最適化することでMySQLを効率的に使用できます。

MySQLを解決する方法は開始できません MySQLを解決する方法は開始できません Apr 08, 2025 pm 02:21 PM

MySQLの起動が失敗する理由はたくさんあり、エラーログをチェックすることで診断できます。一般的な原因には、ポートの競合(ポート占有率をチェックして構成の変更)、許可の問題(ユーザー許可を実行するサービスを確認)、構成ファイルエラー(パラメーター設定のチェック)、データディレクトリの破損(テーブルスペースの復元)、INNODBテーブルスペースの問題(IBDATA1ファイルのチェック)、プラグインロード障害(エラーログのチェック)が含まれます。問題を解決するときは、エラーログに基づいてそれらを分析し、問題の根本原因を見つけ、問題を防ぐために定期的にデータをバックアップする習慣を開発する必要があります。

Vue Axiosのタイムアウトを設定する方法 Vue Axiosのタイムアウトを設定する方法 Apr 07, 2025 pm 10:03 PM

Vue axiosのタイムアウトを設定するために、Axiosインスタンスを作成してタイムアウトオプションを指定できます。グローバル設定:Vue.Prototype。$ axios = axios.create({Timeout:5000});単一のリクエストで:this。$ axios.get( '/api/users'、{timeout:10000})。

Laravelの地理空間:インタラクティブマップと大量のデータの最適化 Laravelの地理空間:インタラクティブマップと大量のデータの最適化 Apr 08, 2025 pm 12:24 PM

700万のレコードを効率的に処理し、地理空間技術を使用したインタラクティブマップを作成します。この記事では、LaravelとMySQLを使用して700万を超えるレコードを効率的に処理し、それらをインタラクティブなマップの視覚化に変換する方法について説明します。最初の課題プロジェクトの要件:MySQLデータベースに700万のレコードを使用して貴重な洞察を抽出します。多くの人は最初に言語をプログラミングすることを検討しますが、データベース自体を無視します。ニーズを満たすことができますか?データ移行または構造調​​整は必要ですか? MySQLはこのような大きなデータ負荷に耐えることができますか?予備分析:キーフィルターとプロパティを特定する必要があります。分析後、ソリューションに関連している属性はわずかであることがわかりました。フィルターの実現可能性を確認し、検索を最適化するためにいくつかの制限を設定しました。都市に基づくマップ検索

MySQLインストール後にデータベースのパフォーマンスを最適化する方法 MySQLインストール後にデータベースのパフォーマンスを最適化する方法 Apr 08, 2025 am 11:36 AM

MySQLパフォーマンスの最適化は、インストール構成、インデックス作成、クエリの最適化、監視、チューニングの3つの側面から開始する必要があります。 1。インストール後、INNODB_BUFFER_POOL_SIZEパラメーターやclose query_cache_sizeなど、サーバーの構成に従ってmy.cnfファイルを調整する必要があります。 2。過度のインデックスを回避するための適切なインデックスを作成し、説明コマンドを使用して実行計画を分析するなど、クエリステートメントを最適化します。 3. MySQL独自の監視ツール(ShowProcessList、ShowStatus)を使用して、データベースの健康を監視し、定期的にデータベースをバックアップして整理します。これらの手順を継続的に最適化することによってのみ、MySQLデータベースのパフォーマンスを改善できます。

リモートシニアバックエンジニア(プラットフォーム)がサークルが必要です リモートシニアバックエンジニア(プラットフォーム)がサークルが必要です Apr 08, 2025 pm 12:27 PM

リモートシニアバックエンジニアの求人事業者:サークル場所:リモートオフィスジョブタイプ:フルタイム給与:$ 130,000- $ 140,000職務記述書サークルモバイルアプリケーションとパブリックAPI関連機能の研究開発に参加します。ソフトウェア開発ライフサイクル全体をカバーします。主な責任は、RubyonRailsに基づいて独立して開発作業を完了し、React/Redux/Relay Front-Endチームと協力しています。 Webアプリケーションのコア機能と改善を構築し、機能設計プロセス全体でデザイナーとリーダーシップと緊密に連携します。肯定的な開発プロセスを促進し、反復速度を優先します。 6年以上の複雑なWebアプリケーションバックエンドが必要です

See all articles