ホームページ テクノロジー周辺機器 AI この新しい方法では、トレーニングを行わずに、画像のサイズと解像度を自由に生成できます。

この新しい方法では、トレーニングを行わずに、画像のサイズと解像度を自由に生成できます。

Apr 08, 2024 pm 04:52 PM
ai 電車

最近、拡散モデルはその優れたパフォーマンスにより GAN モデルや自己回帰モデルを上回り、生成モデルの主流の選択肢となっています。 SD、SDXL、Midjourney、Imagen などの普及モデルベースのテキストから画像への生成モデルは、高品質の画像を生成する驚くべき能力を実証しています。通常、これらのモデルは、既存のハードウェア上で効率的な処理と正確なモデル トレーニングを保証するために、特定の解像度でトレーニングされます。

この新しい方法では、トレーニングを行わずに、画像のサイズと解像度を自由に生成できます。

図 1: SDXL 1.0 で 2048 × 2048 画像を生成するために使用されるさまざまな方法の比較。 [1]

これらの拡散モデルでは、パターンの重複や重大なアーチファクトが頻繁に発生します。たとえば、図 1 の左端に示されています。これらの問題は、トレーニングの解決策を超えて特に深刻です。

論文では、香港中文大学センスタイム共同研究室とその他の機関の研究者が、拡散モデルで一般的に使用されるUNet構造の畳み込み層の詳細な研究を実施しました。図 2 に示すように、領域分析の観点から FouriScale が提案されている周波数を分析しました。

この新しい方法では、トレーニングを行わずに、画像のサイズと解像度を自由に生成できます。

図 2 解像度間の一貫性を確保する FouriScale のプロセスの概略図 (オレンジ色の線)。

拡張畳み込み演算とローパス フィルタリング演算を導入して、事前トレーニングされた拡散モデル内の元の畳み込み層を置き換えることにより、さまざまな解像度での構造とスケールの一貫性を実現できます。この方法を「塗りつぶしてからトリミング」戦略と組み合わせることで、さまざまなサイズやアスペクト比を満たす画像を柔軟に生成できます。さらに、FouriScale をガイドとして使用することで、この方法は、あらゆるサイズの高解像度画像を生成する際に、完全な画像構造と優れた画質を保証できます。 FouriScale はオフラインでの予測計算を必要とせず、優れた互換性と拡張性を備えています。

定量的および定性的な実験結果は、FouriScale が事前トレーニングされた拡散モデルを使用して高解像度画像の生成において大幅な改善を達成したことを示しています。

この新しい方法では、トレーニングを行わずに、画像のサイズと解像度を自由に生成できます。


  • 論文アドレス: https://arxiv.org/abs/2403.12963
  • #オープンソースコード: https://github.com/LeonHLJ/FouriScale
  • # 論文タイトル: FouriScale: トレーニング不要の高解像度画像合成に関する周波数の視点

方法の紹介

1. Atrous 畳み込みにより、解像度全体での構造の一貫性が保証されます

拡散モデルのノイズ除去ネットワークは、通常、特定の解像度で行われます。このネットワークは通常、U-Net 構造を採用します。著者らは、推論段階でノイズ除去ネットワークのパラメーターを使用して、再トレーニングを必要とせずに高解像度の画像を生成することを目指しています。推論解像度での構造の歪みを避けるために、著者はデフォルトと高解像度の間で構造の一貫性を確立しようとしています。 U-Net の畳み込み層の場合、構造の一貫性は次のように表現できます。

この新しい方法では、トレーニングを行わずに、画像のサイズと解像度を自由に生成できます。

ここで、k は元の畳み込みカーネル、k' は New です。より大きな解像度向けにカスタマイズされたコンボリューション カーネル。空間ダウンサンプリングの周波数領域表現によれば、次のようになります。

この新しい方法では、トレーニングを行わずに、画像のサイズと解像度を自由に生成できます。

式 (3) は次のように記述できます。

この新しい方法では、トレーニングを行わずに、画像のサイズと解像度を自由に生成できます。

この式は、理想的なコンボリューション カーネル k' のフーリエ スペクトルが s×s コンボリューション カーネル k のフーリエ スペクトルによって接合される必要があることを示しています。言い換えれば、k' のフーリエ スペクトルは周期的な繰り返しを持つ必要があり、この繰り返しパターンが k のフーリエ スペクトルです。

広く使用されている拡張畳み込みは、まさにこの要件を満たしています。 atrous コンボリューションの周波数領域の周期性は、次の式で表すことができます:

この新しい方法では、トレーニングを行わずに、画像のサイズと解像度を自由に生成できます。

事前トレーニング済みの拡散モデル (トレーニング解像度は (h, w)) を使用して (H, W) の高解像度画像を生成する場合、 atrous コンボリューション 元のコンボリューション カーネルを使用すると、拡張係数は (H/h, W/w) となり、これが理想的なコンボリューション カーネル k' になります。

#2. ローパス フィルタリングにより、解像度全体でのスケールの一貫性が保証されます

#ただし、穴の体積のみを使用すると、製品はこれを行うことができません。図 3 の左上隅に示すように、atrous コンボリューションを使用しただけでは、詳細にはパターンの繰り返し現象が依然として残ります。著者は、これは、空間ダウンサンプリングの周波数エイリアシング現象により周波数領域成分が変化し、その結果、解像度が異なると周波数領域分布に差異が生じるためであると考えています。解像度全体でのスケールの一貫性を確保するために、空間ダウンサンプリング後の周波数エイリアシングの問題を取り除くために、高周波成分を除去するローパス フィルターを導入しました。図 3 の右側の比較曲線からわかるように、ローパス フィルターを使用した後は、高解像度と低解像度での周波数分布が近くなり、一貫したスケールが確保されます。図 3 の左下隅からわかるように、ローパス フィルターを使用した後、細部のパターンの繰り返し現象が大幅に改善されました。

この新しい方法では、トレーニングを行わずに、画像のサイズと解像度を自由に生成できます。

図 3 (a) ローパス フィルターの有無による視覚的な比較。 (b) ローパス フィルターなしのフーリエ相対対数振幅曲線。 (c) ローパス フィルターを使用したフーリエ相対対数振幅曲線。

#3. あらゆるサイズの画像生成に適しています

上記の方法では、生成された解像度のアスペクト比がデフォルトの推論解像度と一致する場合に FouriScale を任意のサイズの画像生成に適応させるために、著者は「塗りつぶして切り抜く」方法を採用しています。方法 1 はこの方法の組み合わせを示しています FouriScale の擬似コード.

この新しい方法では、トレーニングを行わずに、画像のサイズと解像度を自由に生成できます。

4. FouriScale ガイド

原因: 周波数領域の動作FouriScale では、生成された画像に必然的にディテールの損失や望ましくないアーティファクトが発生します。この問題を解決するために、図 4 に示すように、著者は誘導手法として FouriScale を提案しました。具体的には、元の条件付き生成推定と無条件生成推定に基づいて、追加の条件付き生成推定を導入しました。この追加の条件付き生成推定の生成プロセスでも激しい畳み込みが使用されますが、詳細が失われないようにするために、より穏やかなローパス フィルターが使用されます。同時に、FouriScale によって出力された条件付き生成推定値の注意スコアを使用して、この追加の条件付き生成推定値の注意スコアを置き換えます。注意スコアには生成された画像の構造情報が含まれているため、この操作は画像を正しく処理します。画質を確保しながら構造情報を導入。

この新しい方法では、トレーニングを行わずに、画像のサイズと解像度を自由に生成できます。

図 4 (a) FouriScale のブート図。 (b) FouriScale をガイドとして使用せずに生成された画像には、明らかなアーティファクトと詳細エラーがあります。 (c) FouriScale をガイドとして使用して生成された画像。

#実験

1. 定量的テスト結果

著者は、[1] の方法に従い、3 つのヴィンセント グラフ モデル (SD 1.5、SD 2.1、SDXL 1.0 を含む) をテストして、4 つの高解像度画像を生成しました。テストされた解像度は、それぞれのトレーニング解像度のピクセル数の 4x、6.25x、8x、および 16x でした。 Laion-5B で 30000/10000 個の画像とテキストのペアをランダムにサンプリングした結果を表 1 に示します。

この新しい方法では、トレーニングを行わずに、画像のサイズと解像度を自由に生成できます。

表 1 別のトレーニングは必要ありませんメソッドの定量的結果の比較

彼らのメソッドは、事前トレーニングされた各モデルおよび異なる解像度で最適な結果を達成しました。

2. 定性的テストの結果

図 5 に示すように、その方法は事前トレーニングされた各モデル、画像生成の品質、一貫した構造をさまざまな解像度で保証できます。

この新しい方法では、トレーニングを行わずに、画像のサイズと解像度を自由に生成できます。

#図 5 トレーニング不要のさまざまな方法で生成された画像の比較

#結論

#この論文では、高解像度画像を生成する事前トレーニングされた拡散モデルの機能を強化する FouriScale を提案します。 FouriScale は周波数領域から分析され、アトラス畳み込みとローパス フィルター処理を通じてさまざまな解像度での構造とスケールの一貫性を向上させ、繰り返しパターンや構造の歪みなどの重要な課題を解決します。 「塗りつぶしてからトリミング」戦略を採用し、ガイドとして FouriScale を使用すると、さまざまなアスペクト比の生成に適応しながら、テキストから画像への生成の柔軟性と品質が向上します。定量的および定性的な実験比較により、FouriScale がさまざまな事前トレーニング済みモデルとさまざまな解像度の下でより高い画像生成品質を保証できることが示されています。

以上がこの新しい方法では、トレーニングを行わずに、画像のサイズと解像度を自由に生成できます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Centosシャットダウンコマンドライン Centosシャットダウンコマンドライン Apr 14, 2025 pm 09:12 PM

Centos Shutdownコマンドはシャットダウンし、構文はシャットダウン[オプション]時間[情報]です。オプションは次のとおりです。-hシステムをすぐに停止します。 -pシャットダウン後に電源をオフにします。 -r再起動; -t待機時間。時間は、即時(現在)、数分(分)、または特定の時間(HH:mm)として指定できます。追加の情報をシステムメッセージに表示できます。

Centosのgitlabのバックアップ方法は何ですか Centosのgitlabのバックアップ方法は何ですか Apr 14, 2025 pm 05:33 PM

Centosシステムの下でのGitlabのバックアップと回復ポリシーデータセキュリティと回復可能性を確保するために、Gitlab on Centosはさまざまなバックアップ方法を提供します。この記事では、いくつかの一般的なバックアップ方法、構成パラメーター、リカバリプロセスを詳細に紹介し、完全なGitLabバックアップと回復戦略を確立するのに役立ちます。 1.手動バックアップGitlab-RakeGitlabを使用:バックアップ:コマンドを作成して、マニュアルバックアップを実行します。このコマンドは、gitlabリポジトリ、データベース、ユーザー、ユーザーグループ、キー、アクセスなどのキー情報をバックアップします。デフォルトのバックアップファイルは、/var/opt/gitlab/backupsディレクトリに保存されます。 /etc /gitlabを変更できます

CentOS HDFS構成をチェックする方法 CentOS HDFS構成をチェックする方法 Apr 14, 2025 pm 07:21 PM

CENTOSシステムでHDFS構成をチェックするための完全なガイドこの記事では、CENTOSシステム上のHDFSの構成と実行ステータスを効果的に確認する方法をガイドします。次の手順は、HDFSのセットアップと操作を完全に理解するのに役立ちます。 Hadoop環境変数を確認します。最初に、Hadoop環境変数が正しく設定されていることを確認してください。端末では、次のコマンドを実行して、Hadoopが正しくインストールおよび構成されていることを確認します。HDFS構成をチェックするHDFSファイル:HDFSのコア構成ファイルは/etc/hadoop/conf/ディレクトリにあります。使用

CentosのPytorchのGPUサポートはどのようにサポートされていますか CentosのPytorchのGPUサポートはどのようにサポートされていますか Apr 14, 2025 pm 06:48 PM

Pytorch GPUアクセラレーションを有効にすることで、CentOSシステムでは、PytorchのCUDA、CUDNN、およびGPUバージョンのインストールが必要です。次の手順では、プロセスをガイドします。CUDAおよびCUDNNのインストールでは、CUDAバージョンの互換性が決定されます。NVIDIA-SMIコマンドを使用して、NVIDIAグラフィックスカードでサポートされているCUDAバージョンを表示します。たとえば、MX450グラフィックカードはCUDA11.1以上をサポートする場合があります。 cudatoolkitのダウンロードとインストール:nvidiacudatoolkitの公式Webサイトにアクセスし、グラフィックカードでサポートされている最高のCUDAバージョンに従って、対応するバージョンをダウンロードしてインストールします。 cudnnライブラリをインストールする:

Dockerの原則の詳細な説明 Dockerの原則の詳細な説明 Apr 14, 2025 pm 11:57 PM

DockerはLinuxカーネル機能を使用して、効率的で孤立したアプリケーションランニング環境を提供します。その作業原則は次のとおりです。1。ミラーは、アプリケーションを実行するために必要なすべてを含む読み取り専用テンプレートとして使用されます。 2。ユニオンファイルシステム(UnionFS)は、違いを保存するだけで、スペースを節約し、高速化する複数のファイルシステムをスタックします。 3.デーモンはミラーとコンテナを管理し、クライアントはそれらをインタラクションに使用します。 4。名前空間とcgroupsは、コンテナの分離とリソースの制限を実装します。 5.複数のネットワークモードは、コンテナの相互接続をサポートします。これらのコア概念を理解することによってのみ、Dockerをよりよく利用できます。

Centosはmysqlをインストールします Centosはmysqlをインストールします Apr 14, 2025 pm 08:09 PM

CentOSにMySQLをインストールするには、次の手順が含まれます。適切なMySQL Yumソースの追加。 yumを実行して、mysql-serverコマンドをインストールして、mysqlサーバーをインストールします。ルートユーザーパスワードの設定など、MySQL_SECURE_INSTALLATIONコマンドを使用して、セキュリティ設定を作成します。必要に応じてMySQL構成ファイルをカスタマイズします。 MySQLパラメーターを調整し、パフォーマンスのためにデータベースを最適化します。

Centos8はsshを再起動します Centos8はsshを再起動します Apr 14, 2025 pm 09:00 PM

SSHサービスを再起動するコマンドは次のとおりです。SystemCTL再起動SSHD。詳細な手順:1。端子にアクセスし、サーバーに接続します。 2。コマンドを入力します:SystemCtl RestArt SSHD; 3.サービスステータスの確認:SystemCTLステータスSSHD。

CentosでPytorchの分散トレーニングを操作する方法 CentosでPytorchの分散トレーニングを操作する方法 Apr 14, 2025 pm 06:36 PM

Pytorchの分散トレーニングでは、Centosシステムでトレーニングには次の手順が必要です。Pytorchのインストール:PythonとPipがCentosシステムにインストールされていることです。 CUDAバージョンに応じて、Pytorchの公式Webサイトから適切なインストールコマンドを入手してください。 CPUのみのトレーニングには、次のコマンドを使用できます。PipinstalltorchtorchtorchvisionTorchaudioGPUサポートが必要な場合は、CUDAとCUDNNの対応するバージョンがインストールされ、インストールに対応するPytorchバージョンを使用してください。分散環境構成:分散トレーニングには、通常、複数のマシンまたは単一マシンの複数GPUが必要です。場所

See all articles