高品質画像生成への新たな一歩: Google の UFOGen 超高速サンプリング手法
昨年、Stable Diffusion に代表される一連の Vincentian グラフ拡散モデルは、ビジュアル制作の分野を完全に変えました。数え切れないほどのユーザーが、拡散モデルによって生成された画像を使用して生産性を向上させてきました。ただし、拡散モデルの生成速度は一般的な問題です。ノイズ除去モデルは、初期ガウス ノイズを徐々に画像に変換するマルチステップのノイズ除去に依存しているため、ネットワークの複数の計算が必要となり、生成速度が非常に遅くなります。 これにより、大規模なヴィンセント グラフ拡散モデルは、リアルタイム性と対話性を重視する一部のアプリケーションにとって非常に不向きなものになります。 一連のテクノロジーの導入により、拡散モデルからサンプリングするために必要なステップ数は、最初の数百ステップから数十ステップ、さらにはわずか 4 ~ 8 ステップに増加しました。
最近、Google の研究チームは、極めて迅速にサンプリングできる拡散モデルの変形である UFOGen モデルを提案しました。 論文で提案されている方法で安定拡散を微調整することで、UFOGen はわずか 1 ステップで高品質の画像を生成できます。同時に、グラフ生成や ControlNet などの Stable Diffusion の下流アプリケーションも保持できます。
# 論文を表示するには、次のリンクをクリックしてください: https://arxiv.org/abs/2311.09257
# #下の図からわかるように、UFOGen はたった 1 ステップで高品質で多様な画像を生成できます。
1 つの方向性は、より少ない離散ステップを使用して拡散モデルのサンプリング ODE を解くという目的を達成するために、より効率的な数値計算方法を設計することです。たとえば、清華大学の Zhu Jun のチームが提案した DPM シリーズの数値ソルバーは、安定拡散において非常に効果的であることが検証されており、DDIM のデフォルトの 50 ステップから解のステップ数を 20 ステップ未満に大幅に削減できます。 もう 1 つの方向は、知識蒸留法を使用してモデルの ODE ベースのサンプリング パスをより少ないステップ数に圧縮することです。 この方向の例としては、CVPR2023 の最良の論文候補の 1 つであるガイド付き蒸留と、最近人気のある潜在一貫性モデル (LCM) があります。特に LCM は、一貫性ターゲットを絞り出すことでサンプリング ステップの数をわずか 4 に減らすことができ、これにより多くのリアルタイム生成アプリケーションが生み出されてきました。 ただし、Google の研究チームは、UFOGen モデルにおける上記の一般的な方向性には従わず、別のアプローチを採用し、
拡散モデルと GAN が提案したものを組み合わせて使用しました。 1 年以上前。モデルのアイデア。彼らは、前述の ODE ベースのサンプリングと蒸留には根本的な限界があり、サンプリング ステップ数を限界まで圧縮するのは難しいと考えています。したがって、ワンステップ生成の目標を達成したい場合は、新しいアイデアを開拓する必要があります。 ハイブリッド モデルとは、拡散モデルと敵対的生成ネットワーク (GAN) を組み合わせた手法を指します。この手法は、ICLR 2022 で NVIDIA の研究チームによって初めて提案され、DDGAN (「生成学習における 3 つの問題を解決するためのノイズ除去拡散 GAN の使用」) と呼ばれています。 DDGAN は、ノイズ リダクション分布についてガウス仮定を行う通常の拡散モデルの欠点からインスピレーションを受けています。簡単に言うと、拡散モデルは、ノイズ除去分布 (ノイズの多いサンプルが与えられた場合に、よりノイズの少ないサンプルを生成する条件付き分布) が単純なガウス分布であると仮定します。ただし、確率微分方程式の理論では、このような仮定が当てはまるのは、ノイズ リダクションのステップ サイズが 0 に近づいた場合のみであることが証明されています。したがって、拡散モデルでは、ノイズ除去ステップ サイズを小さくするために、多数のノイズ除去ステップを繰り返す必要があり、その結果、生成速度が遅くなります。
DDGAN は、ノイズ除去のガウス仮定を放棄することを提案しています。代わりに、条件付き GAN を使用して、このノイズ低減分布をシミュレートします。 GAN は非常に強力な表現機能を備えており、複雑な分布をシミュレートできるため、より大きなノイズ低減ステップ サイズを使用してステップ数を減らすことができます。ただし、DDGAN は拡散モデルの安定した再構成トレーニング目標を GAN のトレーニング目標に変更するため、トレーニングが不安定になりやすく、より複雑なタスクへの拡張が困難になる可能性があります。 NeurIPS 2023 では、UGOGen を作成したのと同じ Google 研究チームが SIDDM (論文タイトル Semi-Implicit Denoising Diffusion Models) を提案しました。これにより、DDGAN のトレーニング目標に再構成目的関数が再導入され、トレーニングがより安定し、生成品質が大幅に向上しました。 DDGANと比較して改善されました。
SIDDM は UFOGen の前身であり、わずか 4 ステップで CIFAR-10、ImageNet、その他の研究データ セット上に高品質の画像を生成できます。しかし SIDDM には解決すべき 2 つの問題があります: 第一に、理想的な条件をワンステップで生成することができないこと、第二に、より注目を集めているビンセント グラフの分野に拡張することは簡単ではありません。 この目的を達成するために、Google の研究チームは、これら 2 つの問題を解決するために UFOGen を提案しました。 具体的には、質問 1 について、チームは簡単な数学的分析を通じて、ジェネレータのパラメータ化方法を変更し、再構成損失関数の計算方法を変更することで、上記の理論が適用されることを発見しました。モデルはワンステップで生成できます。質問 2 では、チームは初期化に既存の安定拡散モデルを使用して、UFOGen モデルをより迅速かつ適切に Vincent ダイアグラム タスクに拡張できるようにすることを提案しました。 SIDDM はジェネレーターとディスクリミネーターの両方が UNet アーキテクチャを採用することを提案しているため、この設計に基づいて、UFOGen のジェネレーターとディスクリミネーターは安定拡散モデルによって初期化されます。そうすることで、Stable Diffusion の内部情報、特に画像とテキストの関係が最大限に活用されます。このような情報は、敵対的学習からは取得することが困難です。トレーニングアルゴリズムと図を以下に示します。 これより前に、GAN を使用してヴィンセント グラフを実行する作業がいくつかあったことは注目に値します。 NVIDIA StyleGAN-T と Adobe の GigaGAN はどちらも StyleGAN の基本アーキテクチャをより大規模に拡張し、ワンステップでグラフを生成できるようにします。 UFOGen の作者は、以前の GAN ベースの研究と比較して、生成品質に加えて、UFOGen にはいくつかの利点があると指摘しました: 書き直された内容: 1. ヴィンセント グラフ タスクでは、純粋なGenerative Adversarial Network (GAN) トレーニングは非常に不安定です。識別器は画像のテクスチャを判断する必要があるだけでなく、画像とテキストの一致の程度を理解する必要もありますが、これは特にトレーニングの初期段階では非常に困難な作業です。したがって、GigaGAN などの以前の GAN モデルでは、トレーニングを支援するために多数の補助損失が導入されており、トレーニングとパラメーター調整が非常に困難でした。しかし、UFOGen は、再構築ロスを導入することで GAN をこの点でサポートする役割を果たし、非常に安定したトレーニングを実現します 2. GAN をゼロから直接トレーニングすることは不安定であるだけでなく、異常に高価です。特に、大量のデータとトレーニング ステップを必要とする Vincent プロットのようなタスクの場合はそうです。 2 セットのパラメーターを同時に更新する必要があるため、GAN のトレーニングは拡散モデルよりも多くの時間とメモリを消費します。 UFOGen の革新的な設計により、安定拡散からパラメータを初期化できるため、トレーニング時間を大幅に節約できます。通常、収束には数万のトレーニング ステップのみが必要です。 3. ヴィンセント グラフの拡散モデルの魅力の 1 つは、グラフなどの微調整を必要としないアプリケーションやアプリケーションなど、他のタスクにも適用できることです。制御された生成など、すでに微調整が必要な場合。以前の GAN モデルは、GAN の微調整が困難であったため、これらの下流タスクに合わせて拡張することが困難でした。対照的に、UFOGen には拡散モデルのフレームワークがあるため、これらのタスクにより簡単に適用できます。以下の図は、UFOGen のグラフ生成グラフと制御可能な生成の例を示しています。これらの生成には 1 ステップのサンプリングのみが必要であることに注意してください。 実験の結果、UFOGen では、テキストの説明に準拠した高品質の画像を生成するためにサンプリングの 1 ステップのみが必要であることがわかりました。最近提案されている拡散モデル用の高速サンプリング手法 (Instaflow や LCM など) と比較して、UFOGen は強力な競争力を示します。 50 ステップのサンプリングを必要とする Stable Diffusion と比較しても、UFOGen で生成されたサンプルは見た目に劣りません。いくつかの比較結果を次に示します。 Google チームは、UFOGen 強力モデルと呼ばれる手法を提案しました。 、既存の普及モデルと GAN のハイブリッド モデルを改良することで実現されます。このモデルは安定拡散によって微調整されており、ワンステップでグラフを生成する機能を確保しながら、さまざまな下流アプリケーションにも適しています。超高速のテキストから画像への合成を実現するための初期の作品の 1 つとして、UFOGen は高効率の生成モデルの分野に新しい道を切り開きました概要
以上が高品質画像生成への新たな一歩: Google の UFOGen 超高速サンプリング手法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









vue.jsのオブジェクトに文字列を変換する場合、標準のjson文字列にはjson.parse()が推奨されます。非標準のJSON文字列の場合、文字列は正規表現を使用して処理し、フォーマットまたはデコードされたURLエンコードに従ってメソッドを削減できます。文字列形式に従って適切な方法を選択し、バグを避けるためにセキュリティとエンコードの問題に注意してください。

この記事では、MySQLデータベースの操作を紹介します。まず、MySQLWorkBenchやコマンドラインクライアントなど、MySQLクライアントをインストールする必要があります。 1. mysql-uroot-pコマンドを使用してサーバーに接続し、ルートアカウントパスワードでログインします。 2。CreatedAtaBaseを使用してデータベースを作成し、データベースを選択します。 3. createTableを使用してテーブルを作成し、フィールドとデータ型を定義します。 4. INSERTINTOを使用してデータを挿入し、データをクエリし、更新することでデータを更新し、削除してデータを削除します。これらの手順を習得することによってのみ、一般的な問題に対処することを学び、データベースのパフォーマンスを最適化することでMySQLを効率的に使用できます。

MySQLの起動が失敗する理由はたくさんあり、エラーログをチェックすることで診断できます。一般的な原因には、ポートの競合(ポート占有率をチェックして構成の変更)、許可の問題(ユーザー許可を実行するサービスを確認)、構成ファイルエラー(パラメーター設定のチェック)、データディレクトリの破損(テーブルスペースの復元)、INNODBテーブルスペースの問題(IBDATA1ファイルのチェック)、プラグインロード障害(エラーログのチェック)が含まれます。問題を解決するときは、エラーログに基づいてそれらを分析し、問題の根本原因を見つけ、問題を防ぐために定期的にデータをバックアップする習慣を開発する必要があります。

概要:Vue.js文字列配列をオブジェクト配列に変換するための次の方法があります。基本方法:定期的なフォーマットデータに合わせてマップ関数を使用します。高度なゲームプレイ:正規表現を使用すると、複雑な形式を処理できますが、慎重に記述して考慮する必要があります。パフォーマンスの最適化:大量のデータを考慮すると、非同期操作または効率的なデータ処理ライブラリを使用できます。ベストプラクティス:コードスタイルをクリアし、意味のある変数名とコメントを使用して、コードを簡潔に保ちます。

700万のレコードを効率的に処理し、地理空間技術を使用したインタラクティブマップを作成します。この記事では、LaravelとMySQLを使用して700万を超えるレコードを効率的に処理し、それらをインタラクティブなマップの視覚化に変換する方法について説明します。最初の課題プロジェクトの要件:MySQLデータベースに700万のレコードを使用して貴重な洞察を抽出します。多くの人は最初に言語をプログラミングすることを検討しますが、データベース自体を無視します。ニーズを満たすことができますか?データ移行または構造調整は必要ですか? MySQLはこのような大きなデータ負荷に耐えることができますか?予備分析:キーフィルターとプロパティを特定する必要があります。分析後、ソリューションに関連している属性はわずかであることがわかりました。フィルターの実現可能性を確認し、検索を最適化するためにいくつかの制限を設定しました。都市に基づくマップ検索

Vue axiosのタイムアウトを設定するために、Axiosインスタンスを作成してタイムアウトオプションを指定できます。グローバル設定:Vue.Prototype。$ axios = axios.create({Timeout:5000});単一のリクエストで:this。$ axios.get( '/api/users'、{timeout:10000})。

MySQLパフォーマンスの最適化は、インストール構成、インデックス作成、クエリの最適化、監視、チューニングの3つの側面から開始する必要があります。 1。インストール後、INNODB_BUFFER_POOL_SIZEパラメーターやclose query_cache_sizeなど、サーバーの構成に従ってmy.cnfファイルを調整する必要があります。 2。過度のインデックスを回避するための適切なインデックスを作成し、説明コマンドを使用して実行計画を分析するなど、クエリステートメントを最適化します。 3. MySQL独自の監視ツール(ShowProcessList、ShowStatus)を使用して、データベースの健康を監視し、定期的にデータベースをバックアップして整理します。これらの手順を継続的に最適化することによってのみ、MySQLデータベースのパフォーマンスを改善できます。

リモートシニアバックエンジニアの求人事業者:サークル場所:リモートオフィスジョブタイプ:フルタイム給与:$ 130,000- $ 140,000職務記述書サークルモバイルアプリケーションとパブリックAPI関連機能の研究開発に参加します。ソフトウェア開発ライフサイクル全体をカバーします。主な責任は、RubyonRailsに基づいて独立して開発作業を完了し、React/Redux/Relay Front-Endチームと協力しています。 Webアプリケーションのコア機能と改善を構築し、機能設計プロセス全体でデザイナーとリーダーシップと緊密に連携します。肯定的な開発プロセスを促進し、反復速度を優先します。 6年以上の複雑なWebアプリケーションバックエンドが必要です
