画像は携帯電話上で 0.2 秒でレンダリング可能 Google が最速のモバイル普及モデルを構築 MobileDiffusion-AI-php.cn

最も一般的なサンプリングの最適化方法には、8 ステップと 1 ステップを実現できる漸進蒸留と UFOGen があります。モデルが極度に単純化された後でも、これらのサンプリング手法が依然として有効であることを証明するために、MobileDiffusion はこれら 2 つの手法の実験的検証を実施しました。

MobileDiffusion は、さまざまなモデルとサンプリング最適化手法を検討し、最終的に達成しました。 -モバイル端末上の 2 番目のイメージ生成機能により、ダウンストリームの微調整アプリケーションの安定性も保証されます。これは将来の効率的な普及モデル設計に影響を与え、モバイルアプリケーションへの実用的な適用事例が拡大すると考えています。

ホームページ

テクノロジー周辺機器

画像は携帯電話上で 0.2 秒でレンダリング可能 Google が最速のモバイル普及モデルを構築 MobileDiffusion

PHPz

Dec 04, 2023 am 08:44 AM

グーグル紙

携帯電話やその他のモバイル端末上で安定拡散などの大規模な生成 AI モデルを実行することは、業界のホットスポットの 1 つとなっており、生成速度が主な制約となっています。

最近、Google の論文「MobileDiffusion: モバイルデバイスでの 1 秒未満のテキストから画像への生成」では、携帯電話上での最速のテキストから画像への生成が提案されました。 iPhone 15 Pro ではわずか 0.2 秒かかります。この論文は UFOGen と同じチームによるもので、超小型の拡散モデルを作成しながら、サンプリングの高速化には現在普及している Diffusion GAN テクノロジーのルートも採用しています。

画像は携帯電話上で 0.2 秒でレンダリング可能 Google が最速のモバイル普及モデルを構築 MobileDiffusion

# 論文を表示するには、次のリンクをクリックしてください: https://arxiv.org/abs/2311.16567

# #次は、MobileDiffusion によって 1 ステップで生成された結果です。

画像は携帯電話上で 0.2 秒でレンダリング可能 Google が最速のモバイル普及モデルを構築 MobileDiffusion では、MobileDiffusion はどのように最適化されているのでしょうか?

まず問題から始めて、なぜ最適化が必要なのかを探ってみましょう。

最も一般的なテキストから画像への生成テクノロジー拡散モデルに基づいて実装されています。事前トレーニング済みモデルの強力な基本画像生成機能と下流の微調整タスクの堅牢な性質により、画像編集、制御可能な生成、パーソナライズされた生成、ビデオ生成などの分野で拡散モデルの優れたパフォーマンスが確認されています。 .

ただし、基本的なモデルとしては、主に 2 つの側面を含む欠点も明らかです。まず、拡散モデルのパラメータ数が多いため、特に計算速度が遅くなります。第二に、拡散モデルではサンプリングに複数のステップが必要となるため、さらに推論速度が遅くなります。期待されている Stable Diffusion 1.5 (SD) を例にとると、その基本モデルには 10 億近くのパラメータが含まれており、このモデルを定量化し、iPhone 15 Pro で推論を行ったところ、50 ステップのサンプリングに 80 秒近くかかりました。このような高価なリソース要件と遅いユーザーエクスペリエンスにより、モバイル端末でのアプリケーションシナリオが大幅に制限されます。

上記の問題を解決するために、MobileDiffusion はポイントツーポイントを最適化します。 (1) モデルサイズが大きいという問題に対応して、主にそのコアコンポーネントである UNet で多くの実験と最適化を実施しました。これには、計算量の多い畳み込み単純化とアテンション演算を下位層に配置し、モバイルデバイスの動作最適化をターゲットにしました。活性化関数など。 (2) 拡散モデルには複数ステップのサンプリングが必要であるという問題に対応して、MobileDiffusion は漸進的蒸留や現在の最先端の UFOGen などの 1 ステップ推論技術を研究し、実践しています。

#モデルの最適化

MobileDiffusion は、現在のオープンソースコミュニティで最も人気のある SD 1.5 UNet に基づいて最適化されています

# ＃＃＃＃。各最適化操作の後、元の UNet モデルと比較したパフォーマンス損失が同時に測定され、測定指標には、FID と CLIP という 2 つの一般的に使用されるメトリクスが含まれます。

#全体計画

## は画像にありますの左側は元の UNet の設計図で、基本的に畳み込みと Transformer が含まれており、Transformer にはセルフアテンションメカニズムとクロスアテンションメカニズムが含まれていることがわかります。 UNet 最適化の核となるアイデアは 2 つのポイントに分かれています: 1) 畳み込みの合理化. 誰もが知っているように、高解像度の特徴空間で畳み込みを実行するのは非常に時間がかかり、パラメーターも多数あります。これは完全な畳み込みです; 2)

注意効率の向上

。 Convolution と同様に、高アテンションには特徴空間全体の長さの計算が必要です。セルフアテンションの複雑さは特徴空間の平坦化された長さに直接関係し、クロスアテンションも空間の長さに比例します。画像は携帯電話上で 0.2 秒でレンダリング可能 Google が最速のモバイル普及モデルを構築 MobileDiffusion

実験により、UNet の 16 個のトランスフォーマー全体を最も低い機能解像度を持つ内部層に移動し、各層の畳み込みをカットしても、パフォーマンスに明らかな影響がないことが証明されました。達成される効果は次のとおりです。MobileDiffusion は、元の 22 の畳み込みと 16 の Transformer を、わずか 11 の畳み込みと約 12 の Transformer に削減し、これらの処理はすべて低解像度の特徴マップ上で実行されます。これにより効率が大幅に向上し、効率が 40% 向上し、パラメータが 40% シャーリングされました。最終モデルを右に示します。他モデルとの比較は以下のとおりです。

画像は携帯電話上で 0.2 秒でレンダリング可能 Google が最速のモバイル普及モデルを構築 MobileDiffusion

##書き換える内容は、Micro Design#です。

## ここで紹介するのは斬新なデザインのほんの一部ですが、興味のある方は本文を読んでさらに詳しい紹介をご覧ください。

セルフアテンションとクロスアテンションの分離

従来の UNet のトランスフォーマーにはセルフアテンションとクロスアテンションの両方が含まれていますが、MobileDiffusion では -Attend が行われます。はすべて最低解像度の特徴マップに配置されますが、クロスアテンションは中間層に保持されます。この設計により、計算効率が向上するだけでなく、モデル画像の品質も確保されることがわかります

#softmax を relu に微調整する

#誰もが知っているように、最適化されていないほとんどのケースでは、softmax 関数は並列処理を実行することが難しく、パフォーマンスが低くなります。効率。 MobileDiffusion は、各データポイントの活性化には relu 関数の方が効率的であるため、softmax 関数を relu 関数に直接調整 (微調整) する新しい方法を提案しています。驚くべきことに、わずか約 10,000 ステップの微調整で、モデルのメトリクスが改善され、生成された画像の品質が維持されました。したがって、softmax 関数と比較すると、relu 関数の利点は明らかです。

#Separable Convolution

MobileDiffuisonパラメーターを合理化する鍵となるのは、Seprable Convolution の使用でもあります。このテクノロジーは、MobileNet などの研究によって、特にモバイル側で非常に効果的であることが証明されていますが、一般に生成モデルで使用されることはほとんどありません。 MobileDiffusion の実験では、Separable Convolution が、特に UNet の最内層に配置されている場合に、パラメータを削減するのに非常に効果的であることがわかり、分析により、モデルの品質が損なわれないことが証明されました。

サンプリングの最適化

最も一般的なサンプリングの最適化方法には、8 ステップと 1 ステップを実現できる漸進蒸留と UFOGen があります。モデルが極度に単純化された後でも、これらのサンプリング手法が依然として有効であることを証明するために、MobileDiffusion はこれら 2 つの手法の実験的検証を実施しました。

最適化されたサンプリングがベースラインモデルと比較されました。サンプリング最適化後の 8 ステップモデルと 1 ステップモデルの指標が大幅に改善されたことがわかります。

実験とアプリケーション画像は携帯電話上で 0.2 秒でレンダリング可能 Google が最速のモバイル普及モデルを構築 MobileDiffusion

モバイルベンチマークテスト

iPhone 15 Pro では、MobileDiffusion は次の場所で画像をレンダリングできます。現状最速、わずか0.2秒！

#ダウンストリームタスクテスト画像は携帯電話上で 0.2 秒でレンダリング可能 Google が最速のモバイル普及モデルを構築 MobileDiffusion

MobileDiffusion Explorationダウンストリームタスクには、ControlNet/Plugin および LoRA Finetune が含まれます。以下の図からわかるように、モデルとサンプリングの最適化後も、MobileDiffusion は優れたモデル微調整機能を維持しています。

概要

画像は携帯電話上で 0.2 秒でレンダリング可能 Google が最速のモバイル普及モデルを構築 MobileDiffusion

MobileDiffusion は、さまざまなモデルとサンプリング最適化手法を検討し、最終的に達成しました。 -モバイル端末上の 2 番目のイメージ生成機能により、ダウンストリームの微調整アプリケーションの安定性も保証されます。これは将来の効率的な普及モデル設計に影響を与え、モバイルアプリケーションへの実用的な適用事例が拡大すると考えています。

以上が画像は携帯電話上で 0.2 秒でレンダリング可能 Google が最速のモバイル普及モデルを構築 MobileDiffusionの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7464

CakePHP チュートリアル

1376

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

Deepseekをコメントする方法 Feb 19, 2025 pm 05:42 PM

DeepSeekは、強力な情報を取得することですが、その不利な点は遅いことです。

DeepSeekを検索する方法 Feb 19, 2025 pm 05:39 PM

DeepSeekは、特定のデータベースまたはシステムでのみ検索する独自の検索エンジンであり、より速く、より正確です。それを使用する場合、ユーザーはドキュメントを読み、さまざまな検索戦略を試し、ユーザーエクスペリエンスに関するヘルプを求めてフィードバックを求めて、利点を最大限に活用することをお勧めします。

セサミオープンドア交換Webページ登録リンクゲートトレーディングアプリ登録Webサイト最新 Feb 28, 2025 am 11:06 AM

この記事では、SESAME Open Exchange（gate.io）Webバージョンの登録プロセスとGate Tradingアプリを詳細に紹介します。 Web登録であろうとアプリの登録であろうと、公式Webサイトまたはアプリストアにアクセスして、本物のアプリをダウンロードし、ユーザー名、パスワード、電子メール、携帯電話番号、その他の情報を入力し、電子メールまたは携帯電話の確認を完了する必要があります。

Bybit Exchangeリンクを直接ダウンロードしてインストールできないのはなぜですか？ Feb 21, 2025 pm 10:57 PM

Bybit Exchangeリンクを直接ダウンロードしてインストールできないのはなぜですか？ BYBITは、ユーザーにトレーディングサービスを提供する暗号通貨交換です。 Exchangeのモバイルアプリは、次の理由でAppStoreまたはGooglePlayを介して直接ダウンロードすることはできません。1。AppStoreポリシーは、AppleとGoogleがApp Storeで許可されているアプリケーションの種類について厳しい要件を持つことを制限しています。暗号通貨交換アプリケーションは、金融サービスを含み、特定の規制とセキュリティ基準を必要とするため、これらの要件を満たしていないことがよくあります。 2。法律と規制のコンプライアンス多くの国では、暗号通貨取引に関連する活動が規制または制限されています。これらの規制を遵守するために、BYBITアプリケーションは公式Webサイトまたはその他の認定チャネルを通じてのみ使用できます

セサミオープンドアトレーディングプラットフォームダウンロードモバイルバージョンgateioトレーディングプラットフォームのダウンロードアドレス Feb 28, 2025 am 10:51 AM

アプリをダウンロードしてアカウントの安全を確保するために、正式なチャネルを選択することが重要です。

Crypto Digital Asset Trading App（2025グローバルランキング）に推奨されるトップ10 Mar 18, 2025 pm 12:15 PM

この記事では、Binance、Okx、Gate.io、Bitflyer、Kucoin、Bybit、Coinbase Pro、Kraken、Bydfi、Xbit分散化された交換など、注意を払う価値のある上位10の暗号通貨取引プラットフォームを推奨しています。これらのプラットフォームには、トランザクションの数量、トランザクションの種類、セキュリティ、コンプライアンス、特別な機能の点で独自の利点があります。適切なプラットフォームを選択するには、あなた自身の取引体験、リスク許容度、投資の好みに基づいて包括的な検討が必要です。この記事があなたがあなた自身に最適なスーツを見つけるのに役立つことを願っています

セサミオープンドアエクスチェンジウェブページログイン最新バージョンgateio公式ウェブサイトの入り口 Mar 04, 2025 pm 11:48 PM

ログインステップやパスワード回復プロセスなど、セサミオープンエクスチェンジWebバージョンのログイン操作の詳細な紹介も、ログイン障害、ページを開くことができず、プラットフォームにスムーズにログインするのに役立つ検証コードを受信できません。

gate.io交換公式登録ポータル Feb 20, 2025 pm 04:27 PM

Gate.ioは、幅広い暗号資産と取引ペアを提供する主要な暗号通貨交換です。 gate.ioの登録は非常に簡単です。公式ウェブサイトにアクセスするか、「登録」をクリックし、登録フォームに入力し、電子メールを確認し、2因子検証（2FA）を設定する必要があります。登録を完了します。 gate.ioを使用すると、ユーザーは安全で便利な暗号通貨取引体験を楽しむことができます。

See all articles

画像は携帯電話上で 0.2 秒でレンダリング可能 Google が最速のモバイル普及モデルを構築 MobileDiffusion

MobileDiffusion は、現在のオープン ソース コミュニティで最も人気のある SD 1.5 UNet に基づいて最適化されています

モバイル ベンチマーク テスト

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

MobileDiffusion は、現在のオープンソースコミュニティで最も人気のある SD 1.5 UNet に基づいて最適化されています

モバイルベンチマークテスト