目次
背景の紹介

一方、本論文では、BRISQUE などの一般的な画質評価指標を使用して、元のプリトレーニングと比較します。拡散モデルと SUR アダプター拡散モデルを使用して、生成された画像の品質に関する統計テストを実行した後、この 2 つの間に大きな違いがないことがわかります。
HCP 研究室の紹介
ホームページ テクノロジー周辺機器 AI Vincent 図のプロンプトを簡素化し、LLM モデルが高品質の画像を生成します

Vincent 図のプロンプトを簡素化し、LLM モデルが高品質の画像を生成します

Sep 13, 2023 am 09:25 AM
ai 電車

拡散モデルは主流のテキストから画像への生成モデルとなっており、テキスト プロンプトを通じて高品質でコンテンツ豊富な画像の生成をガイドできます。

入力プロンプトが単純すぎる場合、既存のモデルでは意味の理解と常識的な推論に制限があり、生成される画像の品質が大幅に低下します

Lin Liang のチームは、中山大学の HCP 研究室は、SUR アダプターと呼ばれるシンプルかつ効果的な微調整方法を提案し、物語の手掛かりを理解するモデルの能力を向上させるように設計されています。このメソッドは、事前トレーニングされた拡散モデルの意味理解および推論アダプターであり、パラメーター効率が高くなります。

Vincent 図のプロンプトを簡素化し、LLM モデルが高品質の画像を生成します

下のリンクをクリックしてください。論文を表示します。 https://arxiv.org/abs/2305.05189

オープンソースのアドレス: https://github.com/Qrange-group/SUR-adapter

この目標を達成するために、研究者たちはまず SURD と呼ばれるデータセットを収集し、注釈を付けました。このデータセットには 57,000 を超えるマルチモーダル サンプルが含まれており、各サンプルには単純なナラティブ プロンプト、複雑なキーワードベースのプロンプト、および高品質の画像が含まれています

研究者はナラティブ プロンプトの意味論的表現を調整します複雑なプロンプトを使用し、知識の蒸留を通じて大規模言語モデル (LLM) の知識を SUR アダプターに転送して、高品質のテキストを構築するための強力な意味的理解と推論機能を獲得できるようにします。 テキストから画像への生成のための意味的表現。次に、物語プロンプトの意味表現を複雑なプロンプトと調整し、知識の蒸留を通じて大規模言語モデル (LLM) の知識を SUR アダプターに転送して、高品質の言語を構築するための強力な意味理解と推論能力を獲得できるようにしました。テキストから画像への生成の場合

Vincent 図のプロンプトを簡素化し、LLM モデルが高品質の画像を生成します

複数の LLM と事前訓練された拡散モデルを統合することで実験したところ、この方法は次のことができることがわかりました。拡散モデルを効果的に作成する 画質を劣化させることなく、簡潔な自然言語の説明を理解して推論する

このアプローチにより、テキストから画像への拡散モデルが使いやすくなり、より良いユーザー エクスペリエンスが提供されます。ユーザーフレンドリーなテキストから画像への生成モデルの開発をさらに推進し、単純な物語プロンプトとキーワードベースのプロンプトの間の意味論的なギャップを埋める

背景の紹介

現在、安定拡散に代表されるテキストから画像への事前トレーニングモデルは、人工知能が生成するコンテンツの分野で最も重要な基本モデルの1つとなっており、次のようなタスクで重要な役割を果たしています。画像編集、ビデオ生成、3D オブジェクト生成などの重要な役割

現時点では、これらの事前トレーニング済み拡散モデルの意味論的能力は主にテキスト エンコーダ (CLIP など) に依存しています。 、そしてその意味理解能力は拡散モデルの生成効果に直接影響します

この記事ではまず、視覚的な質問応答で共通の質問カテゴリを構築することにより、安定拡散の画像とテキストのマッチング精度をテストします。 「数える」、「色」、「アクション」などのタスク(VQA)。手動でカウントし、テストを実施します

#以下は、さまざまなプロンプトの作成例です。詳細については、下の表を参照してください。

Vincent 図のプロンプトを簡素化し、LLM モデルが高品質の画像を生成します

以下の表に示されている結果によれば、この記事では、現在のヴィンセント グラフの事前トレーニング済み拡散モデルには意味理解に関する重大な問題があることが明らかになりました。多くの質問の画像とテキストの一致精度は 50% 未満であり、一部の質問でも精度は 0% にすぎません

Vincent 図のプロンプトを簡素化し、LLM モデルが高品質の画像を生成します

# #一致するテキストを取得するには 条件付き画像を生成するには、事前トレーニングされた拡散モデルでエンコーダーのセマンティック機能を強化する方法を見つける必要があります

メソッドの概要

書き直された内容: 1. データの前処理

まず、一般的に使用される普及モデルのオンライン Web サイトから始めることができます。 lexica.art、civitai.com、stablediffusionweb 多数の画像とテキストのペアを取得します。次に、これらのデータをクリーンアップしてフィルター処理して、57,000 を超える高品質のトリプレット データ (複雑なプロンプト、単純なプロンプト、画像を含む) を取得し、それを SURD データセットに形成する必要があります

Vincent 図のプロンプトを簡素化し、LLM モデルが高品質の画像を生成します

下の図に示すように、複雑なプロンプトは、画像生成時に拡散モデルに必要なテキスト プロンプト条件を指します。通常、これらのプロンプトには複雑な形式と説明が含まれます。単純なプロンプトは、BLIP を通じて生成された画像のテキスト説明です。人間の説明と一致する言語形式を使用します。

一般的に、通常の人間の言語と一致する単純なプロンプト拡散モデルが意味的に適切な画像を生成するのは説明が困難ですが、複雑な手がかり (ユーザーが冗談めかして拡散モデルの「マントラ」と呼ぶもの) によって満足のいく結果を達成できます

#書き直す必要があるのは:2. 大規模な言語モデルの意味論的抽出

この記事では、Transformer 構造のアダプターを使用して、大規模な言語モデルの意味論的特徴を抽出する方法を紹介します。特定の隠れ層の言語モデルと、アダプターによって導かれた大規模な言語モデル情報と、元のテキスト エンコーダーによって出力された意味論的特徴を線形的に組み合わせることで、最終的な意味論的特徴が得られます。大規模な言語モデルは、さまざまなサイズのモデルの LLaMA を使用し、拡散モデルの UNet 部分のパラメーターはトレーニング プロセス全体でフリーズされます。 ##書き換える必要がある内容は:3. 画質の復元

元の意味を変更しないようにするには、内容を中国語に書き直す必要があります。 この記事の構成では、学習前の大規模モデルの推論過程に学習可能なモジュールを導入しているため、学習前モデル本来の画像生成品質をある程度壊しているため、画像生成の品質を取り戻す必要がある元の事前トレーニング モデルの生成品質レベルまで

Vincent 図のプロンプトを簡素化し、LLM モデルが高品質の画像を生成します

この論文では、SURD データセット内のトリプルを使用し、対応する品質損失関数を導入します。画像生成の品質を復元するためのトレーニング プロセス。具体的には、この記事は、新しいモジュールを通じて取得される意味論的特徴が、複雑なキューの意味論的特徴と可能な限り一致することを望んでいます。

次の図は、SUR アダプターの効果を示しています。事前トレーニングされた拡散モデル微調整フレームワーク。右側はアダプターのネットワーク構造です。

Vincent 図のプロンプトを簡素化し、LLM モデルが高品質の画像を生成します

実験結果

##SUR- の場合アダプターのパフォーマンスについて、この記事では、セマンティック マッチングと画質という 2 つの側面からパフォーマンスを分析します。

Vincent 図のプロンプトを簡素化し、LLM モデルが高品質の画像を生成します一方で、次の表によると、SUR アダプターは、アダプター内の一般的なセマンティクスを効果的に解決できます。ヴィンセンチアン グラフ拡散モデルの不一致問題。さまざまな実験設定に適用できます。異なるカテゴリの意味論的基準の下では、精度もある程度改善されています。


一方、本論文では、BRISQUE などの一般的な画質評価指標を使用して、元のプリトレーニングと比較します。拡散モデルと SUR アダプター拡散モデルを使用して、生成された画像の品質に関する統計テストを実行した後、この 2 つの間に大きな違いがないことがわかります。

人間の好みに関するアンケートテストも実施しました。

上記の分析を通じて、提案手法は固有のイメージを軽減できると結論付けることができます。 - 画像生成の品質を維持しながら、事前トレーニングされたテキストから画像へのテキスト不一致の問題

#また、次の画像生成例を通じて定性的にも実証します。より詳細な分析と詳細については、この記事とオープン ソース ウェアハウスを参照してください

書き直す必要があるコンテンツは次のとおりです:

Vincent 図のプロンプトを簡素化し、LLM モデルが高品質の画像を生成します

Vincent 図のプロンプトを簡素化し、LLM モデルが高品質の画像を生成します

HCP 研究室の紹介

Lin Liang 教授は、2010 年に中山大学のヒューマン・マシン・オブジェクト・インテリジェント融合研究室 (HCP Lab) を設立しました。近年、この研究室は、マルチモーダルなコンテンツ理解、因果推論および認知推論、身体化された知能の分野で豊富な学術成果を上げています。当研究室は国内外の科学技術賞や最優秀論文賞を多数受賞しており、製品レベルの人工知能技術とプラットフォームの開発に取り組んでいます

以上がVincent 図のプロンプトを簡素化し、LLM モデルが高品質の画像を生成しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Debian Apacheログ形式の構成方法 Debian Apacheログ形式の構成方法 Apr 12, 2025 pm 11:30 PM

この記事では、Debian SystemsでApacheのログ形式をカスタマイズする方法について説明します。次の手順では、構成プロセスをガイドします。ステップ1:Apache構成ファイルにアクセスするDebianシステムのメインApache構成ファイルは、/etc/apache2/apache2.confまたは/etc/apache2/httpd.confにあります。次のコマンドを使用してルートアクセス許可を使用して構成ファイルを開きます。sudonano/etc/apache2/apache2.confまたはsudonano/etc/apache2/httpd.confステップ2:検索または検索または

Tomcatログがメモリの漏れのトラブルシューティングに役立つ方法 Tomcatログがメモリの漏れのトラブルシューティングに役立つ方法 Apr 12, 2025 pm 11:42 PM

Tomcatログは、メモリリークの問題を診断するための鍵です。 Tomcatログを分析することにより、メモリの使用状況とガベージコレクション(GC)の動作に関する洞察を得ることができ、メモリリークを効果的に見つけて解決できます。 Tomcatログを使用してメモリリークをトラブルシューティングする方法は次のとおりです。1。GCログ分析最初に、詳細なGCロギングを有効にします。 Tomcatの起動パラメーターに次のJVMオプションを追加します:-xx:printgcdetails-xx:printgcdateStamps-xloggc:gc.logこれらのパラメーターは、GCタイプ、リサイクルオブジェクトサイズ、時間などの情報を含む詳細なGCログ(GC.log)を生成します。分析GC.LOG

Debian Readdirによるファイルソートを実装する方法 Debian Readdirによるファイルソートを実装する方法 Apr 13, 2025 am 09:06 AM

Debian Systemsでは、Readdir関数はディレクトリコンテンツを読み取るために使用されますが、それが戻る順序は事前に定義されていません。ディレクトリ内のファイルを並べ替えるには、最初にすべてのファイルを読み取り、QSORT関数を使用してソートする必要があります。次のコードは、debianシステムにreaddirとqsortを使用してディレクトリファイルを並べ替える方法を示しています。

Debian Readdirのパフォーマンスを最適化する方法 Debian Readdirのパフォーマンスを最適化する方法 Apr 13, 2025 am 08:48 AM

Debian Systemsでは、Directoryコンテンツを読み取るためにReadDirシステム呼び出しが使用されます。パフォーマンスが良くない場合は、次の最適化戦略を試してください。ディレクトリファイルの数を簡素化します。大きなディレクトリをできる限り複数の小さなディレクトリに分割し、Readdirコールごとに処理されたアイテムの数を減らします。ディレクトリコンテンツのキャッシュを有効にする:キャッシュメカニズムを構築し、定期的にキャッシュを更新するか、ディレクトリコンテンツが変更されたときに、頻繁な呼び出しをreaddirに削減します。メモリキャッシュ(memcachedやredisなど)またはローカルキャッシュ(ファイルやデータベースなど)を考慮することができます。効率的なデータ構造を採用する:ディレクトリトラバーサルを自分で実装する場合、より効率的なデータ構造(線形検索の代わりにハッシュテーブルなど)を選択してディレクトリ情報を保存およびアクセスする

Debian Syslogのファイアウォールルールを構成する方法 Debian Syslogのファイアウォールルールを構成する方法 Apr 13, 2025 am 06:51 AM

この記事では、Debian SystemsでiPtablesまたはUFWを使用してファイアウォールルールを構成し、Syslogを使用してファイアウォールアクティビティを記録する方法について説明します。方法1:Iptablesiptablesの使用は、Debian Systemの強力なコマンドラインファイアウォールツールです。既存のルールを表示する:次のコマンドを使用して現在のiPtablesルールを表示します。Sudoiptables-L-N-vでは特定のIPアクセスを許可します。たとえば、IPアドレス192.168.1.100がポート80にアクセスできるようにします:sudoiptables-input-ptcp - dport80-s192.166

Debian syslogを学ぶ方法 Debian syslogを学ぶ方法 Apr 13, 2025 am 11:51 AM

このガイドでは、Debian SystemsでSyslogの使用方法を学ぶように導きます。 Syslogは、ロギングシステムとアプリケーションログメッセージのLinuxシステムの重要なサービスです。管理者がシステムアクティビティを監視および分析して、問題を迅速に特定および解決するのに役立ちます。 1. syslogの基本的な知識Syslogのコア関数には以下が含まれます。複数のログ出力形式とターゲットの場所(ファイルやネットワークなど)をサポートします。リアルタイムのログ表示およびフィルタリング機能を提供します。 2。syslog(rsyslogを使用)をインストールして構成するDebianシステムは、デフォルトでrsyslogを使用します。次のコマンドでインストールできます:sudoaptupdatesud

Debian Nginxログパスはどこですか Debian Nginxログパスはどこですか Apr 12, 2025 pm 11:33 PM

Debianシステムでは、nginxのアクセスログとエラーログのデフォルトのストレージ場所は次のとおりです。アクセスログ(アクセスログ):/var/log/nginx/access.logエラーログ(errorlog):/var/log/nginx/error.log上記のパスは、標準のdebiannginxインストールのデフォルト構成です。インストールプロセス中にログファイルストレージの場所を変更した場合は、nginx構成ファイル(通常は/etc/nginx/nginx.confまたは/etc/etc/nginx/sites-abailable/directoryにあります)を確認してください。構成ファイル

Debian Mail Serverファイアウォールの構成のヒント Debian Mail Serverファイアウォールの構成のヒント Apr 13, 2025 am 11:42 AM

Debian Mail Serverのファイアウォールの構成は、サーバーのセキュリティを確保するための重要なステップです。以下は、iPtablesやFirewalldの使用を含む、一般的に使用されるファイアウォール構成方法です。 iPtablesを使用してファイアウォールを構成してIPTablesをインストールします(まだインストールされていない場合):sudoapt-getupdatesudoapt-getinstalliptablesview現在のiptablesルール:sudoiptables-l configuration

See all articles