ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

WBOY
リリース: 2023-05-15 19:04:04
転載
1008 人が閲覧しました

さあ、2022年も終わりです。

画像生成における深層学習モデルのパフォーマンスはすでに非常に優れています。明らかに、将来的にはさらに多くの驚きをもたらすでしょう。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

私たちはどのようにして 10 年後の今日の状況に到達したのでしょうか?

以下のタイムラインでは、いくつかのマイルストーンの瞬間、つまり AI 画像合成に影響を与えた論文、アーキテクチャ、モデル、データセット、実験が開始された時期をたどります。

すべては10年前のあの夏から始まりました。

始まり (2012-2015)

ディープ ニューラル ネットワークの出現後、人々はそれが画像分類を完全に変えることに気づきました。

同時に、研究者は逆の方向を模索し始めました。畳み込み層など、分類に非常に効果的な技術を使用して画像が生成された場合はどうなるでしょうか?

これは、「人工知能の夏」の誕生の始まりです。

#2012 年 12 月

すべてはここから始まりました。

今年、「深層畳み込みニューラルネットワークのImageNet分類」という論文が出版されました。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

論文の著者の一人は、「AI の 3 人の巨人」の 1 人であるヒントンです。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

ディープ畳み込みニューラル ネットワーク (CNN)、GPU、インターネットをソースとする巨大なデータセット (ImageNet) を初めて組み合わせました。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

2014 年 12 月##Ian Goodfellow とその他の AIジャイアンツは、壮大な論文「Generative Adversarial Networks」を出版しました。

GAN は、分析ではなく画像合成に特化した最初の最新のニューラル ネットワーク アーキテクチャです (「最新」の定義は 2012 年以降です)。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る 2つのサブネットワーク「Generator」と「Discriminator」が競合する、ゲーム理論に基づいた独自の学習メソッドが紹介されています。

最終的には、「ジェネレーター」のみがシステムの外部に保持され、画像合成に使用されます。 ############こんにちは世界! GAN は、Goodfellow らの 2014 年の論文から顔のサンプルを生成しました。モデルは、Web から削除された Toronto Faces データセットでトレーニングされました。

#2015 年 11 月

独創的な論文「深層畳み込み敵対的生成ネットワークを使用した教師なし代表学習」が出版されました。

この論文では、著者らは最初の実際に使用可能な GAN アーキテクチャ (DCGAN) について説明します。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

この論文では、潜在空間の操作という問題も初めて提起します。概念は潜在空間の方向にマッピングされるのでしょうか?

GAN の 5 年間 (2015-2020)

この 5 年間で、GAN はスタイルの転送、復元、ノイズ除去などのさまざまな画像処理タスクに適用されてきました。そして超解像。

この期間中、GAN アーキテクチャに関する論文が急増し始めました。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

プロジェクトアドレス: https://github.com/nightrome/really-awesome-gan

#同時に、GAN を使った芸術的な実験が現れ始め、Mike Tyka、Mario Klingenmann、Anna Ridler、Helena Sarin などの最初の作品が登場しました。

最初の「AIアート」スキャンダルは2018年に発生しました。 3 人のフランス人学生が「借用した」コードを使用して AI ポートレートを生成し、これがクリスティーズでオークションに出品された初の AI ポートレートとなりました。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

#同時に、トランスフォーマー アーキテクチャは NLP に革命をもたらしました。

この件は近い将来、画像合成に大きな影響を与えることになります。

2017 年 6 月

論文「Attention Is All You Need」が発表されました。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

「Transformers, Explained: Understanding the Model Behind GPT-3, BERT, and T5」にも詳しい説明があります。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

それ以来、Transformer アーキテクチャ (BERT のような事前トレーニング済みモデルの形式) は、自然言語処理 (NLP) の分野に革命をもたらしました。 。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

##2018 年 7 月

##論文「概念的なアノテーション: 自動画像キャプションのためのクリーニング、重ね合わせ、および画像代替テキスト データセット」が出版されました。 ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

このデータセットと他のマルチモーダル データセットは、CLIP や DALL-E などのモデルにとって非常に重要になります。 ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

2018-20

NVIDIA の研究者は、GAN アーキテクチャに関する研究を実施しました。シリーズ完全リニューアル。

論文「限られたデータを使用した敵対生成ネットワークのトレーニング」では、最新の StyleGAN2-ada が紹介されています。 ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

初めて、GAN で生成された画像は、少なくとも Flickr-Faces-HQ (FFHQ) のような高度に最適化されたデータセットでは、自然画像と区別できなくなりました。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

Mario Klingenmann、「通行人の記憶 I」、2018 年。バコネスクの顔は、この地域の AI アートの典型であり、非現実的な性質が存在します。生成モデル それは芸術的探求の焦点です

2020 年 5 月

論文「言語モデルは小規模なサンプル学習者です」が出版されました。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

OpenAI の LLM Generative Pre-trained Transformer 3 (GPT-3) は、トランスフォーマー アーキテクチャの威力を実証します。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

2020 年 12 月

##論文「変圧器を飼いならす」高解像度画像合成』を出版しました。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

ViT は、Transformer アーキテクチャを画像に使用できることを示しています。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

この記事で紹介した方法 VQGAN は、ベンチマーク テストで SOTA の結果をもたらしました。

2010 年代後半の GAN アーキテクチャの品質は、主に位置合わせされた顔画像に基づいて評価されており、より異質なデータセットの場合は結果が限られていました。

したがって、人間の顔は、学術/産業および芸術の実験における重要な基準点であり続けます。

Transformer の時代 (2020-2022)

Transformer アーキテクチャの出現により、画像合成の歴史は完全に書き換えられました。

それ以来、画像合成の分野は GAN を放棄し始めました。

「マルチモーダル」ディープラーニングは、NLP とコンピューター ビジョン テクノロジーを統合し、「ジャストインタイム エンジニアリング」はモデルのトレーニングと調整に取って代わり、芸術的な画像合成手法となります。

論文「自然言語監視からの転移可能な視覚モデルの学習」では、CLIP アーキテクチャが提案されています。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

現在の画像合成ブームは、CLIPが初めて導入したマルチモーダル機能が牽引していると言えます。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

#CLIP アーキテクチャに関する論文

# 1 月2021#

論文「Zero-Sample Text to Image Generation」が公開され (OpenAI のブログ投稿も参照)、間もなく世界に公開される DALL-E の最初のバージョンが紹介されました。

このバージョンは、テキストと画像 (VAE によって「TOKEN」に圧縮) を単一のデータ ストリームに結合することで機能します。

このモデルは「文」を「継続」しているだけです。

データ (2 億 5,000 万画像) には、Wikipedia のテキストと画像のペア、概念の説明、および YFCM100M のフィルター処理されたサブセットが含まれています。

CLIP は、画像合成に対する「マルチモーダル」アプローチの基礎を築きます。

#2021 年 1 月

論文「自然言語モデルからの転移可能なビジョンの教師あり学習」 」が出版されました。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

この論文では、ViT と通常の Transformer を組み合わせたマルチモーダル モデルである CLIP を紹介します。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

CLIP は画像とキャプションの「共有潜在空間」を学習するため、画像にラベルを付けることができます。

モデルは、この論文の付録 A.1 にリストされている大規模なデータセットでトレーニングされます。

#2021 年 6 月

論文「画像合成における拡散モデルのリリース」が敗訴しましたGAN』を出版。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る#拡散モデルでは、GAN 方式とは異なる画像合成方式が導入されています。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る研究者は、人工的に追加されたノイズから画像を再構成することで学習します。

これらは変分オートエンコーダ (VAE) に関連しています。

#2021年7月

DALL-E mini発売。

これは、DALL-E のコピーです (より小型で、アーキテクチャとデータがほとんど調整されていません)。 ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

データには、コンセプト 12M、コンセプト キャプション、および元の DALL-E モデル用に OpenAI によって使用された YFCM100M の同じフィルター処理されたサブセットが含まれます。

コンテンツ フィルターや API 制限がない DALL-E mini は、クリエイティブな探求に大きな可能性をもたらし、その結果、Twitter で「奇妙な DALL-E」画像が爆発的に増加しました。

#2021-2022

Katherine Crowson が CLIP の作成を探求する一連の CoLab ノートをリリースモデルの生成をガイドします。

たとえば、512x512CLIP ガイド付き拡散と VQGAN-CLIP (自然言語ガイダンスを使用したオープンドメイン画像の生成と編集は、2022 年にプレプリントとしてのみリリースされましたが、VQGAN の発表と同時に公開実験が開始されました)解放された )。

GAN の初期の頃と同じように、アーティストや開発者は非常に限られた手段で既存のアーキテクチャに大幅な改良を加え、その後企業によって簡素化され、最終的には wombo.ai などの「スタートアップ」によって商品化されました。

#2022 年 4 月

論文「CLIP 潜在的な画像生成による階層テキスト条件」出版されました。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

#この文書では、DALL-E 2 について紹介します。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る


これは、ほんの数週間前に公開された GLIDE 論文に基づいています (" GLIDE : テキストガイドによる拡散モデルを使用したリアルな画像の生成と編集に基づいています。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

同時に、 DALL-E 2 制限され、意図的に制限されているため、DALL-E mini への関心が新たに高まっています。

モデル カードによると、データには「公開されているリソースと当社のリソースの組み合わせ」が含まれています。ライセンスされたリソース」、およびこの論文の完全な CLIP および DALL-E データ セットによると。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

「ブロンドのポートレート写真「女の子、デジタル一眼レフカメラで撮影、中程度の性的背景、高解像度」、DALL-E 2 を使用して生成。トランスフォーマーベースの生成モデルは、StyleGAN 2 などの後の GAN アーキテクチャのリアリズムと一致しますが、さまざまな画像を作成できます。テーマとパターン

2022 年 5 月~6 月

#5 月には、論文「With Deep Language Understanding」「Realistic Text-to-Image Diffusion Model」が出版

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

#6 月、論文「Scaling Autoregression」

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る##これら 2 つの論文では、Imagegen と Parti が紹介されました。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る


と DALL-E 2 に対する Google の回答。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

#「なぜ私が今日あなたを止めたか知っていますか?」 DALL-E 2 によって生成された「プロンプト エンジニアリング」は、それ以来芸術的な画像合成の主要な方法となっています

AI Photoshop (2022 年から現在)

#DALL-E 2 は画像モデリングの新しい標準を設定しましたが、その急速な商用化は、その使用が当初から制限されていることも意味しました。

ユーザーは DALL-E mini などの小型モデルを試し続けました。

その後、画期的な Stable Diffusion のリリースにより、状況はすべて変わりました。

Stable Diffusion は、画像合成の「Photoshop 時代」の始まりであると言えます。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

「ブドウの房が 4 つある静物画、古代の画家ゼウシス フアン エル ラブラドール フェルナンデスのようなものを作ろうとしている、1636 年、プラド美術館、マドリッド ブドウはブドウのように本物そっくり」、安定した拡散によって生み出された 6 つの変更

2022 年 8 月

##Stability.ai が安定拡散モデルをリリースしました。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

#論文「潜在拡散モデルによる高解像度画像合成」の中で、Stability.ai は Stable Diffusion を堂々と開始しました。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

#このモデルは、DALL-E 2 と同じフォトリアリズムを実現できます。

DALL-E 2 に加えて、モデルはほぼ即座に一般公開され、CoLab および Huggingface プラットフォームで実行できます。

2022 年 8 月 #Google は、論文「DreamBooth: テーマ主導型の生成」を発表しました。テキストから画像への拡散モデルを微調整します。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返るDreamBooth では、拡散モデルに対するさらにきめ細かい制御が可能になります。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る#ただし、そのような追加の技術介入がなくても、Photoshop のような生成モデルを使用して、スケッチから開始してレイヤーごとに追加することが可能になります。結果として生じる変更。

#2022 年 10 月

##最大シャッターストック、1フォトギャラリー企業の大手である同社は、OpenAIと協力して生成画像の提供・ライセンス供与を行うと発表したが、安定拡散などの生成モデルによりフォトギャラリー市場は深刻な影響を受けることが予想される。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

以上がヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返るの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート