ホームページ テクノロジー周辺機器 AI GANの逆襲:Zhu Junyan氏の新作CVPR作品「GigaGAN」、画像出力速度がStable Diffusionを上回る

GANの逆襲:Zhu Junyan氏の新作CVPR作品「GigaGAN」、画像出力速度がStable Diffusionを上回る

Apr 12, 2023 pm 03:43 PM
モデル 文章

画像生成は、現在の AIGC 分野で最も人気のある方向の 1 つです。最近リリースされた DALL・E 2、Imagen、Stable Diffusion などの画像生成モデルは、画像生成の新時代を到来させ、前例のないレベルの画質とモデルの柔軟性を実現しました。普及モデルも現在では主流のパラダイムとなっています。ただし、拡散モデルは反復推論に依存しています。これは両刃の剣です。反復手法は単純な目的で安定したトレーニングを達成できますが、推論プロセスには高い計算コストが必要となるからです。

拡散モデルが登場する前は、敵対的生成ネットワーク (GAN) が画像生成モデルで一般的に使用されていたインフラストラクチャでした。拡散モデルと比較して、GAN は単一の順方向パスを通じて画像を生成するため、本質的に効率が高くなりますが、GAN をスケーリングするには、トレーニング プロセスが不安定であるため、ネットワーク アーキテクチャとトレーニング係数を慎重に調整する必要があります。したがって、GAN は単一または複数のオブジェクト クラスのモデリングには優れていますが、(現実世界はもちろんのこと) 複雑なデータセットに拡張することは非常に困難です。その結果、非常に大規模なモデル、データ、計算リソースが拡散モデルと自己回帰モデルに専念するようになりました。

しかし、効率的な生成方法として、多くの研究者は GAN 方法を完全に放棄したわけではありません。たとえば、NVIDIA は最近 StyleGAN-T モデルを提案し、香港の中国人などが GAN ベースの手法を使用してスムーズなビデオを生成しましたが、これらは GAN に関する CV 研究者によるさらなる試みです。

今回、CVPR 2023 の論文で、POSTECH、カーネギーメロン大学、Adobe Research の研究者が共同で、GAN に関する次のような重要な問題を検討しました。

#GAN はスケールし続け、大規模なリソースから恩恵を受けることができますか? GAN はボトルネックに遭遇しましたか?
  • GAN のさらなる拡張を妨げるものは何でしょうか?また、これらの障害を克服できるでしょうか?

GANの逆襲:Zhu Junyan氏の新作CVPR作品「GigaGAN」、画像出力速度がStable Diffusionを上回る

    紙のリンク: https://arxiv.org/abs/2303.05511
  • プロジェクトリンク: https://mingukkang.github.io/GigaGAN/
  • #CycleGAN の主著者であり、2018 ACM SIGGRAPH 最優秀博士論文賞を受賞した Zhu Junyan が、この CVPR 論文の 2 人目の著者であることは注目に値します。

この研究では、最初に StyleGAN2 を使用した実験が行われ、バックボーン ネットワークを拡張するだけではトレーニングが不安定になることが観察されました。これに基づいて、研究者らはいくつかの重要な問題を特定し、モデルの能力を向上させながらトレーニングを安定させる手法を提案しました。

まず、この研究では、フィルターのセットを保持し、サンプル固有の線形結合を採用することで、ジェネレーターの容量を効果的に拡張します。この研究では、拡散の文脈で一般的に使用されるいくつかの技術も採用されており、それらが GAN に同様の利点をもたらすことも確認されました。たとえば、自己注意 (画像のみ) と相互注意 (画像とテキスト) を畳み込み層と組み合わせることで、モデルのパフォーマンスを向上させることができます。

この研究では、マルチスケール トレーニングも再導入し、画像とテキストの位置合わせを改善し、出力の低周波の詳細を生成するための新しいスキームを提案しています。マルチスケール トレーニングにより、GAN ベースのジェネレーターは低解像度ブロックのパラメーターをより効率的に使用できるようになり、画像とテキストの位置合わせと画質が向上します。この研究では、慎重な調整を経て、10億個のパラメータを備えた新しいモデルGigaGANを提案し、大規模なデータセット(LAION2B-enなど)での安定かつスケーラブルなトレーニングを実現します。実験結果を以下の図1に示します。

GANの逆襲:Zhu Junyan氏の新作CVPR作品「GigaGAN」、画像出力速度がStable Diffusionを上回る

さらに、この研究では多段階の方法 [14, 104] も採用されており、最初は低解像度で行われました。画像は 512 × 512 の解像度で生成され、512 × 512 の解像度にアップサンプリングされます。どちらのネットワークもモジュール式で、プラグ アンド プレイ方式で使用できるほど強力です。

この研究は、以下の図 2 と 3 に示すように、テキスト条件付き GAN アップサンプリング ネットワークが基礎となる拡散モデルの効率的で高品質なアップサンプラーとして使用できることを示しています。

GANの逆襲:Zhu Junyan氏の新作CVPR作品「GigaGAN」、画像出力速度がStable Diffusionを上回る

上記の改善により、GigaGAN は以前の GAN をはるかに超えており、StyleGAN2 の 36 倍、StyleGAN-XL および XMC-GAN の 6 倍となっています。 GigaGAN のパラメータ数 10 億 (1B) は、Imagen (3.0B)、DALL・E 2 (5.5B)、Parti (20B) などの最近の大規模合成モデルのパラメータ数よりもまだ低いものの、研究者らはまだ十分ではないと述べています。モデルのサイズに大きな変化が見られました。サイズの品質は飽和しています。

GigaGAN は、COCO2014 データセットでゼロサンプル FID 9.09 を達成しましたが、これは DALL・E 2、Parti-750M、安定拡散よりも低い値です。


さらに、拡散モデルや自己回帰モデルと比較して、GigaGAN には 3 つの大きな実用的な利点があります。まず、数十倍高速であり、512 ピクセルの画像を 0.13 秒で生成します (図 1)。 2 番目に、わずか 3.66 秒で 4k 解像度の超高解像度画像を合成できます。第三に、スタイル ブレンディング (図 6)、プロンプト補間 (図 7)、プロンプト ブレンディング (図 8) など、よく研究された制御可能な画像合成アプリケーションに適した制御可能な潜在ベクトル空間を備えています。 ################################################ #これ研究では、GAN ベースの 10 億パラメータ スケール モデル GigaGAN を数十億の実世界の画像でトレーニングすることに成功しました。これは、GAN が依然としてテキストから画像への合成の実行可能な選択肢であり、研究者が将来の積極的な拡張のために GAN を検討する必要があることを示唆しています。

方法の概要

研究者は、可能性のあるエンコード z∼N (0, 1)∈R ^128 とテキストを与えて、ジェネレーター G (z, c) をトレーニングしました。条件付け信号 c は、画像 x∈R^(H×W×3) を予測します。彼らは、識別器 D(x, c) を使用して、画像とテキストのペアを含むトレーニング データベース D 内のサンプルと比較して、生成された画像の信頼性を判断します。

GANの逆襲:Zhu Junyan氏の新作CVPR作品「GigaGAN」、画像出力速度がStable Diffusionを上回る

GAN はシングルクラスおよびマルチクラスのデータセット上でリアルな画像を生成することに成功していますが、インターネット画像上のオープンテキスト条件付き合成には依然として課題があります。研究者らは、現在の制限は畳み込み層への依存に起因していると仮説を立てています。つまり、同じ畳み込みフィルタを使用して、画像内のすべての位置のすべてのテキスト条件に対する汎用画像合成関数をモデル化しますが、これは課題です。これを考慮して、研究者らは、入力条件に基づいて畳み込みフィルターを動的に選択し、アテンション メカニズムを通じて長距離の依存関係をキャプチャすることで、パラメーター化にさらなる表現力を注入しようとしています。

GANの逆襲:Zhu Junyan氏の新作CVPR作品「GigaGAN」、画像出力速度がStable Diffusionを上回る

GigaGAN 大容量テキスト画像ジェネレーターを以下の図 4 に示します。まず、事前トレーニングされた CLIP モデルと学習されたエンコーダー T を使用して、テキスト埋め込みを抽出します。クロスアテンションを使用して、ローカル テキスト記述子をジェネレーターにフィードします。グローバル テキスト記述子は、潜在コード z とともにスタイル マッピング ネットワーク M に供給されて、スタイル コード w が生成されます。スタイル コードは、論文のスタイル (右側に示す適応カーネル選択) を使用してメイン ジェネレーターを調整します。

ジェネレーターは、中間特徴を RGB イメージに変換することにより、イメージ ピラミッドを出力します。より高い容量を実現するために、各スケールで複数のアテンション層と畳み込み層を使用します (付録 A2)。彼らはまた、この図には示されていない別のアップサンプラー モデルも使用しました。

識別子は、画像とテキストの条件付け t_D を処理するための 2 つの分岐で構成されます。テキスト ブランチは、ジェネレーターと同様にテキストを処理します (図 4)。画像ブランチは画像ピラミッドを受け取り、画像スケールごとに独立した予測を行います。さらに、ダウンサンプリング層の後続のすべてのスケールで予測が行われるため、マルチスケール入力、マルチスケール出力 (MS-I/O) 弁別器となります。

実験結果

論文では、著者は 5 つの異なる実験を記録しました。

#最初の実験では、各技術要素を 1 つずつ組み込むことで提案手法の有効性を実証しました。

GANの逆襲:Zhu Junyan氏の新作CVPR作品「GigaGAN」、画像出力速度がStable Diffusionを上回る

2 番目の実験では、モデルのグラフ生成機能をテストし、結果は GigaGAN のパフォーマンスが優れていることを示しました。安定拡散 (SD-v1.5) は FID に匹敵しますが、拡散モデルや自己回帰モデルよりもはるかに高速に結果を生成します。

GANの逆襲:Zhu Junyan氏の新作CVPR作品「GigaGAN」、画像出力速度がStable Diffusionを上回る

3 番目の実験では、GigaGAN と蒸留ベースの拡散モデルを比較しました。結果は、GigaGAN が蒸留ベースの拡散モデルより効率的であることを示しました。拡散: モデルは高品質の画像をより速く合成します。

GANの逆襲:Zhu Junyan氏の新作CVPR作品「GigaGAN」、画像出力速度がStable Diffusionを上回る

4 番目の実験では、GigaGAN のアップサンプラーが条件付きおよび無条件の超解像度を達成できることが検証されました。タスクを評価します。

GANの逆襲:Zhu Junyan氏の新作CVPR作品「GigaGAN」、画像出力速度がStable Diffusionを上回る

GANの逆襲:Zhu Junyan氏の新作CVPR作品「GigaGAN」、画像出力速度がStable Diffusionを上回る

最後に、彼らは大規模 GAN を発表しました。モデルは引き続き GAN の連続的でもつれの解けた潜在空間操作を利用できるため、新しい画像編集モードが可能になります。図については、上の図 6 と図 8 を参照してください。

以上がGANの逆襲:Zhu Junyan氏の新作CVPR作品「GigaGAN」、画像出力速度がStable Diffusionを上回るの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです 世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです May 07, 2024 pm 04:13 PM

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

MLP に代わる KAN は、オープンソース プロジェクトによって畳み込みまで拡張されました MLP に代わる KAN は、オープンソース プロジェクトによって畳み込みまで拡張されました Jun 01, 2024 pm 10:03 PM

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

こんにちは、電気アトラスです!ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 こんにちは、電気アトラスです!ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

Google は大喜び: JAX のパフォーマンスが Pytorch や TensorFlow を上回りました! GPU 推論トレーニングの最速の選択肢となる可能性があります Google は大喜び: JAX のパフォーマンスが Pytorch や TensorFlow を上回りました! GPU 推論トレーニングの最速の選択肢となる可能性があります Apr 01, 2024 pm 07:46 PM

Google が推進する JAX のパフォーマンスは、最近のベンチマーク テストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル 最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

AI が数学研究を破壊する!フィールズ賞受賞者で中国系アメリカ人の数学者が上位 11 件の論文を主導 | テレンス・タオが「いいね!」しました AI が数学研究を破壊する!フィールズ賞受賞者で中国系アメリカ人の数学者が上位 11 件の論文を主導 | テレンス・タオが「いいね!」しました Apr 09, 2024 am 11:52 AM

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』(米国数学協会会報)の最新号を送ってくれた。 「機械は数学を変えるのか?」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

テスラのロボットは工場で働く、マスク氏:手の自由度は今年22に達する! テスラのロボットは工場で働く、マスク氏:手の自由度は今年22に達する! May 06, 2024 pm 04:13 PM

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行​​い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

FisheyeDetNet: 魚眼カメラに基づいた最初のターゲット検出アルゴリズム FisheyeDetNet: 魚眼カメラに基づいた最初のターゲット検出アルゴリズム Apr 26, 2024 am 11:37 AM

目標検出は自動運転システムにおいて比較的成熟した問題であり、その中でも歩行者検出は最も初期に導入されたアルゴリズムの 1 つです。ほとんどの論文では非常に包括的な研究が行われています。ただし、サラウンドビューに魚眼カメラを使用した距離認識については、あまり研究されていません。放射状の歪みが大きいため、標準のバウンディング ボックス表現を魚眼カメラに実装するのは困難です。上記の説明を軽減するために、拡張バウンディング ボックス、楕円、および一般的な多角形の設計を極/角度表現に探索し、これらの表現を分析するためのインスタンス セグメンテーション mIOU メトリックを定義します。提案された多角形モデルの FisheyeDetNet は、他のモデルよりも優れたパフォーマンスを示し、同時に自動運転用の Valeo 魚眼カメラ データセットで 49.5% の mAP を達成しました。

DualBEV: BEVFormer および BEVDet4D を大幅に上回る、本を開いてください! DualBEV: BEVFormer および BEVDet4D を大幅に上回る、本を開いてください! Mar 21, 2024 pm 05:21 PM

この論文では、自動運転においてさまざまな視野角 (遠近法や鳥瞰図など) から物体を正確に検出するという問題、特に、特徴を遠近法 (PV) 空間から鳥瞰図 (BEV) 空間に効果的に変換する方法について検討します。 Visual Transformation (VT) モジュールを介して実装されます。既存の手法は、2D から 3D への変換と 3D から 2D への変換という 2 つの戦略に大別されます。 2D から 3D への手法は、深さの確率を予測することで高密度の 2D フィーチャを改善しますが、特に遠方の領域では、深さ予測に固有の不確実性により不正確さが生じる可能性があります。 3D から 2D への方法では通常、3D クエリを使用して 2D フィーチャをサンプリングし、Transformer を通じて 3D と 2D フィーチャ間の対応のアテンション ウェイトを学習します。これにより、計算時間と展開時間が増加します。

See all articles