目次
為什麼 Imagen 比 DALL-E 2 好?
ホームページ テクノロジー周辺機器 AI 拡散 + 超解像度モデルの強力な組み合わせ、Google の画像生成ツール Imagen を支えるテクノロジー

拡散 + 超解像度モデルの強力な組み合わせ、Google の画像生成ツール Imagen を支えるテクノロジー

Apr 10, 2023 am 10:21 AM
モデル 研究

近年、マルチモーダル学習、特にテキストと画像の合成と画像とテキストの対比学習の 2 つの方向が注目されています。 OpenAIが発表したテキスト画像モデルDALL・EやDALL-E 2、NVIDIAのGauGANやGauGAN2など、一部のAIモデルはクリエイティブな画像生成や編集への応用で広く注目を集めています。

Google も負けじと、独自のテキストから画像への変換モデル Imagen を 5 月末にリリースしました。これにより、キャプション条件付き画像生成の境界がさらに拡大されるようです。

拡散 + 超解像度モデルの強力な組み合わせ、Google の画像生成ツール Imagen を支えるテクノロジー

シーンの説明だけを与えると、そのシーンが現実世界で意味をなすかどうかに関係なく、Imagen は高品質、高解像度の画像を生成できます。次の図は、Imagen のテキスト生成画像のいくつかの例を示しており、対応する字幕が画像の下に表示されています。

拡散 + 超解像度モデルの強力な組み合わせ、Google の画像生成ツール Imagen を支えるテクノロジー

#これらの印象的な生成された画像を見ると、「Imagen はどのように機能するの?」と疑問に思うでしょう。

最近、開発者講師の Ryan O'Connor が AssemblyAI ブログに「Imagen の実際の仕組み」という長い記事を書き、Imagen の動作原理を詳細に説明し、Imagen の概要を説明し、その高機能を分析して理解しました。レベルのコンポーネントとそれらの間の関係。

Imagen の動作原理の概要

このパートでは、著者は Imagen の全体的なアーキテクチャを示し、他の動作原理の概要を説明し、その後、Imagen の各機能をより徹底的に分析します。順番に、コンポーネント。次のアニメーションは、Imagen のワークフローを示しています。

拡散 + 超解像度モデルの強力な組み合わせ、Google の画像生成ツール Imagen を支えるテクノロジー

まず、

字幕をテキスト エンコーダに入力します。このエンコーダは、テキスト サブタイトルを、テキスト内の意味情報をカプセル化する数値表現に変換します。 Imagen のテキスト エンコーダーは Transformer エンコーダーであり、セルフ アテンション メソッドを使用して、テキスト エンコーディングが字幕内の単語が相互にどのように関連しているかを確実に理解します。

Imagen が単語間の関連性ではなく、個々の単語のみに焦点を当てている場合、字幕の個々の要素を捉えることができる高品質の画像は取得できますが、これらの画像を記述することは、字幕の意味論を適切な方法で反映することができません。以下の例に示すように、単語間の関連性を考慮しない場合は、まったく異なる生成効果が発生します。

拡散 + 超解像度モデルの強力な組み合わせ、Google の画像生成ツール Imagen を支えるテクノロジー

テキスト エンコーダは Imagen の字幕入力に役立つ表現を生成しますが、この表現を使用する画像、つまり

Image を生成する方法を考案する必要があります。発生器###。これを行うために、Imagen は拡散モデル を使用します。これは、複数のタスクに対する SOTA パフォーマンスのおかげで近年人気が高まっている生成モデルです。 拡散モデルは、トレーニングを達成するためにノイズを追加することでトレーニング データを破壊し、その後、このノイズ プロセスを逆にすることでデータを回復することを学習します。入力画像が与えられると、拡散モデルは一連のタイム ステップにわたってガウス ノイズで画像を繰り返し破損し、最終的にはガウス ノイズまたは TV が静止したままになります。次の図は、拡散モデルの反復ノイズ プロセスを示しています。

拡散 + 超解像度モデルの強力な組み合わせ、Google の画像生成ツール Imagen を支えるテクノロジー拡散モデルは逆方向に動作し、各タイム ステップでノイズを分離して除去する方法を学習し、キャンセルします。破壊プロセスで発生したノイズを消します。トレーニングが完了すると、モデルを 2 つに分割できます。このようにして、次の図に示すように、ガウス ノイズのランダムなサンプリングから開始し、拡散モデルを使用して徐々にノイズを除去して画像を生成できます。

拡散 + 超解像度モデルの強力な組み合わせ、Google の画像生成ツール Imagen を支えるテクノロジー

總之,經過訓練的擴散模型從高斯雜訊開始,然後迭代地產生與訓練影像類似的影像。很明顯的是,無法控制影像的實際輸出,只是將高斯雜訊輸入到模型中,並且它會輸出一張看起來屬於訓練資料集的隨機影像。

但是,目標是建立能夠將輸入到 Imagen 的字幕的語義資訊封裝起來的影像,因此需要將字幕合併到擴散過程中的方法。如何做到這一點呢?

上文提到文字編碼器產生了代表性的字幕編碼,而這種編碼其實就是向量序列。為了將此編碼資訊注入到擴散模型中,這些向量被聚合在一起,並在它們的基礎上調整擴散模型。透過調整此向量,擴散模型學習如何調整其去噪過程以產生與字幕匹配良好的影像。過程視覺化圖如下所示:

拡散 + 超解像度モデルの強力な組み合わせ、Google の画像生成ツール Imagen を支えるテクノロジー

由於影像產生器或基礎模型輸出一個小的64x64 影像,為了將此模型上取樣到最終的1024x1024 版本,使用超解析度模型智慧地對影像進行上取樣

對於超解析度模型,Imagen 再次使用了擴散模型。整體流程與基礎模型基本相同,除了僅基於字幕編碼調整外,還以正在上採樣的更小圖像來調整。整個過程的視覺化圖如下所示:

拡散 + 超解像度モデルの強力な組み合わせ、Google の画像生成ツール Imagen を支えるテクノロジー

這個超​​解析度模型的輸出其實並不是最終輸出,而是一個中等大小的圖像。為了將該圖像放大到最終的 1024x1024 分辨率,又使用了另一個超解析度模型。兩個超解析度架構大致相同,因此不再贅述。而第二個超解析度模型的輸出才是 Imagen 的最終輸出。

為什麼 Imagen 比 DALL-E 2 好?

確切地回答為什麼 Imagen 比 DALL-E 2 更好是困難的。然而,性能差距中不可忽視的一部分源於字幕以及提示差異。 DALL-E 2 使用對比目標來確定文字編碼與影像(本質上是 CLIP)的相關程度。文字和圖像編碼器調整它們的參數,使得相似的字幕 - 圖像對的餘弦相似度最大化,而不同的字幕 - 圖像對的餘弦相似度最小化。

效能差距的一個顯著部分源自於 Imagen 的文字編碼器比 DALL-E 2 的文字編碼器大得多,並且接受了更多資料的訓練。作為這一假設的證據,我們可以在文字編碼器擴展時檢查 Imagen 的性能。下面為 Imagen 效能的帕累托曲線:

拡散 + 超解像度モデルの強力な組み合わせ、Google の画像生成ツール Imagen を支えるテクノロジー

放大文字編碼器的效果高得驚人,而放大 U-Net 的效果卻低得驚人。這一結果表明,相對簡單的擴散模型只要以強大的編碼為條件,就可以產生高品質的結果。

鑑於T5 文字編碼器比CLIP 文字編碼器大得多,再加上自然語言訓練資料必然比圖像- 字幕對更豐富這一事實,大部分效能差距可能歸因於這種差異。

除此之外,作者還列出了 Imagen 的幾個關鍵要點,包括以下內容:

  • 擴展文字編碼器是非常有效的;
  • 擴展文字編碼器比擴展U-Net 大小更重要;
  • #動態閾值至關重要;
  • 噪音條件增強在超解析度模型中至關重要;
  • 將交叉注意用於文字條件反射至關重要;
  • 高效率的U-Net 至關重要。

這些見解為正在研究擴散模型的研究人員提供了有價值的方向,而不是只在文字到圖像的子領域有用。

以上が拡散 + 超解像度モデルの強力な組み合わせ、Google の画像生成ツール Imagen を支えるテクノロジーの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです 世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです May 07, 2024 pm 04:13 PM

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

MLP に代わる KAN は、オープンソース プロジェクトによって畳み込みまで拡張されました MLP に代わる KAN は、オープンソース プロジェクトによって畳み込みまで拡張されました Jun 01, 2024 pm 10:03 PM

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

こんにちは、電気アトラスです!ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 こんにちは、電気アトラスです!ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

AI が数学研究を破壊する!フィールズ賞受賞者で中国系アメリカ人の数学者が上位 11 件の論文を主導 | テレンス・タオが「いいね!」しました AI が数学研究を破壊する!フィールズ賞受賞者で中国系アメリカ人の数学者が上位 11 件の論文を主導 | テレンス・タオが「いいね!」しました Apr 09, 2024 am 11:52 AM

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』(米国数学協会会報)の最新号を送ってくれた。 「機械は数学を変えるのか?」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

Google は大喜び: JAX のパフォーマンスが Pytorch や TensorFlow を上回りました! GPU 推論トレーニングの最速の選択肢となる可能性があります Google は大喜び: JAX のパフォーマンスが Pytorch や TensorFlow を上回りました! GPU 推論トレーニングの最速の選択肢となる可能性があります Apr 01, 2024 pm 07:46 PM

Google が推進する JAX のパフォーマンスは、最近のベンチマーク テストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル 最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

DualBEV: BEVFormer および BEVDet4D を大幅に上回る、本を開いてください! DualBEV: BEVFormer および BEVDet4D を大幅に上回る、本を開いてください! Mar 21, 2024 pm 05:21 PM

この論文では、自動運転においてさまざまな視野角 (遠近法や鳥瞰図など) から物体を正確に検出するという問題、特に、特徴を遠近法 (PV) 空間から鳥瞰図 (BEV) 空間に効果的に変換する方法について検討します。 Visual Transformation (VT) モジュールを介して実装されます。既存の手法は、2D から 3D への変換と 3D から 2D への変換という 2 つの戦略に大別されます。 2D から 3D への手法は、深さの確率を予測することで高密度の 2D フィーチャを改善しますが、特に遠方の領域では、深さ予測に固有の不確実性により不正確さが生じる可能性があります。 3D から 2D への方法では通常、3D クエリを使用して 2D フィーチャをサンプリングし、Transformer を通じて 3D と 2D フィーチャ間の対応のアテンション ウェイトを学習します。これにより、計算時間と展開時間が増加します。

テスラのロボットは工場で働く、マスク氏:手の自由度は今年22に達する! テスラのロボットは工場で働く、マスク氏:手の自由度は今年22に達する! May 06, 2024 pm 04:13 PM

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行​​い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

FisheyeDetNet: 魚眼カメラに基づいた最初のターゲット検出アルゴリズム FisheyeDetNet: 魚眼カメラに基づいた最初のターゲット検出アルゴリズム Apr 26, 2024 am 11:37 AM

目標検出は自動運転システムにおいて比較的成熟した問題であり、その中でも歩行者検出は最も初期に導入されたアルゴリズムの 1 つです。ほとんどの論文では非常に包括的な研究が行われています。ただし、サラウンドビューに魚眼カメラを使用した距離認識については、あまり研究されていません。放射状の歪みが大きいため、標準のバウンディング ボックス表現を魚眼カメラに実装するのは困難です。上記の説明を軽減するために、拡張バウンディング ボックス、楕円、および一般的な多角形の設計を極/角度表現に探索し、これらの表現を分析するためのインスタンス セグメンテーション mIOU メトリックを定義します。提案された多角形モデルの FisheyeDetNet は、他のモデルよりも優れたパフォーマンスを示し、同時に自動運転用の Valeo 魚眼カメラ データセットで 49.5% の mAP を達成しました。

See all articles