目次
始まり (2012-2015)
GAN の 5 年間 (2015-2020)
ホームページ テクノロジー周辺機器 AI ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

May 15, 2023 pm 07:04 PM
ai 画像

さあ、2022年も終わりです。

画像生成における深層学習モデルのパフォーマンスはすでに非常に優れています。明らかに、将来的にはさらに多くの驚きをもたらすでしょう。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

私たちはどのようにして 10 年後の今日の状況に到達したのでしょうか?

以下のタイムラインでは、いくつかのマイルストーンの瞬間、つまり AI 画像合成に影響を与えた論文、アーキテクチャ、モデル、データセット、実験が開始された時期をたどります。

すべては10年前のあの夏から始まりました。

始まり (2012-2015)

ディープ ニューラル ネットワークの出現後、人々はそれが画像分類を完全に変えることに気づきました。

同時に、研究者は逆の方向を模索し始めました。畳み込み層など、分類に非常に効果的な技術を使用して画像が生成された場合はどうなるでしょうか?

これは、「人工知能の夏」の誕生の始まりです。

#2012 年 12 月

すべてはここから始まりました。

今年、「深層畳み込みニューラルネットワークのImageNet分類」という論文が出版されました。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

論文の著者の一人は、「AI の 3 人の巨人」の 1 人であるヒントンです。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

ディープ畳み込みニューラル ネットワーク (CNN)、GPU、インターネットをソースとする巨大なデータセット (ImageNet) を初めて組み合わせました。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

2014 年 12 月##Ian Goodfellow とその他の AIジャイアンツは、壮大な論文「Generative Adversarial Networks」を出版しました。

GAN は、分析ではなく画像合成に特化した最初の最新のニューラル ネットワーク アーキテクチャです (「最新」の定義は 2012 年以降です)。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る 2つのサブネットワーク「Generator」と「Discriminator」が競合する、ゲーム理論に基づいた独自の学習メソッドが紹介されています。

最終的には、「ジェネレーター」のみがシステムの外部に保持され、画像合成に使用されます。 ############こんにちは世界! GAN は、Goodfellow らの 2014 年の論文から顔のサンプルを生成しました。モデルは、Web から削除された Toronto Faces データセットでトレーニングされました。

#2015 年 11 月

独創的な論文「深層畳み込み敵対的生成ネットワークを使用した教師なし代表学習」が出版されました。

この論文では、著者らは最初の実際に使用可能な GAN アーキテクチャ (DCGAN) について説明します。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

この論文では、潜在空間の操作という問題も初めて提起します。概念は潜在空間の方向にマッピングされるのでしょうか?

GAN の 5 年間 (2015-2020)

この 5 年間で、GAN はスタイルの転送、復元、ノイズ除去などのさまざまな画像処理タスクに適用されてきました。そして超解像。

この期間中、GAN アーキテクチャに関する論文が急増し始めました。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

プロジェクトアドレス: https://github.com/nightrome/really-awesome-gan

#同時に、GAN を使った芸術的な実験が現れ始め、Mike Tyka、Mario Klingenmann、Anna Ridler、Helena Sarin などの最初の作品が登場しました。

最初の「AIアート」スキャンダルは2018年に発生しました。 3 人のフランス人学生が「借用した」コードを使用して AI ポートレートを生成し、これがクリスティーズでオークションに出品された初の AI ポートレートとなりました。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

#同時に、トランスフォーマー アーキテクチャは NLP に革命をもたらしました。

この件は近い将来、画像合成に大きな影響を与えることになります。

2017 年 6 月

論文「Attention Is All You Need」が発表されました。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

「Transformers, Explained: Understanding the Model Behind GPT-3, BERT, and T5」にも詳しい説明があります。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

それ以来、Transformer アーキテクチャ (BERT のような事前トレーニング済みモデルの形式) は、自然言語処理 (NLP) の分野に革命をもたらしました。 。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

##2018 年 7 月

##論文「概念的なアノテーション: 自動画像キャプションのためのクリーニング、重ね合わせ、および画像代替テキスト データセット」が出版されました。 ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

このデータセットと他のマルチモーダル データセットは、CLIP や DALL-E などのモデルにとって非常に重要になります。 ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

2018-20

NVIDIA の研究者は、GAN アーキテクチャに関する研究を実施しました。シリーズ完全リニューアル。

論文「限られたデータを使用した敵対生成ネットワークのトレーニング」では、最新の StyleGAN2-ada が紹介されています。 ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

初めて、GAN で生成された画像は、少なくとも Flickr-Faces-HQ (FFHQ) のような高度に最適化されたデータセットでは、自然画像と区別できなくなりました。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

Mario Klingenmann、「通行人の記憶 I」、2018 年。バコネスクの顔は、この地域の AI アートの典型であり、非現実的な性質が存在します。生成モデル それは芸術的探求の焦点です

2020 年 5 月

論文「言語モデルは小規模なサンプル学習者です」が出版されました。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

OpenAI の LLM Generative Pre-trained Transformer 3 (GPT-3) は、トランスフォーマー アーキテクチャの威力を実証します。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

2020 年 12 月

##論文「変圧器を飼いならす」高解像度画像合成』を出版しました。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

ViT は、Transformer アーキテクチャを画像に使用できることを示しています。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

この記事で紹介した方法 VQGAN は、ベンチマーク テストで SOTA の結果をもたらしました。

2010 年代後半の GAN アーキテクチャの品質は、主に位置合わせされた顔画像に基づいて評価されており、より異質なデータセットの場合は結果が限られていました。

したがって、人間の顔は、学術/産業および芸術の実験における重要な基準点であり続けます。

Transformer の時代 (2020-2022)

Transformer アーキテクチャの出現により、画像合成の歴史は完全に書き換えられました。

それ以来、画像合成の分野は GAN を放棄し始めました。

「マルチモーダル」ディープラーニングは、NLP とコンピューター ビジョン テクノロジーを統合し、「ジャストインタイム エンジニアリング」はモデルのトレーニングと調整に取って代わり、芸術的な画像合成手法となります。

論文「自然言語監視からの転移可能な視覚モデルの学習」では、CLIP アーキテクチャが提案されています。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

現在の画像合成ブームは、CLIPが初めて導入したマルチモーダル機能が牽引していると言えます。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

#CLIP アーキテクチャに関する論文

# 1 月2021#

論文「Zero-Sample Text to Image Generation」が公開され (OpenAI のブログ投稿も参照)、間もなく世界に公開される DALL-E の最初のバージョンが紹介されました。

このバージョンは、テキストと画像 (VAE によって「TOKEN」に圧縮) を単一のデータ ストリームに結合することで機能します。

このモデルは「文」を「継続」しているだけです。

データ (2 億 5,000 万画像) には、Wikipedia のテキストと画像のペア、概念の説明、および YFCM100M のフィルター処理されたサブセットが含まれています。

CLIP は、画像合成に対する「マルチモーダル」アプローチの基礎を築きます。

#2021 年 1 月

論文「自然言語モデルからの転移可能なビジョンの教師あり学習」 」が出版されました。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

この論文では、ViT と通常の Transformer を組み合わせたマルチモーダル モデルである CLIP を紹介します。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

CLIP は画像とキャプションの「共有潜在空間」を学習するため、画像にラベルを付けることができます。

モデルは、この論文の付録 A.1 にリストされている大規模なデータセットでトレーニングされます。

#2021 年 6 月

論文「画像合成における拡散モデルのリリース」が敗訴しましたGAN』を出版。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る#拡散モデルでは、GAN 方式とは異なる画像合成方式が導入されています。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る研究者は、人工的に追加されたノイズから画像を再構成することで学習します。

これらは変分オートエンコーダ (VAE) に関連しています。

#2021年7月

DALL-E mini発売。

これは、DALL-E のコピーです (より小型で、アーキテクチャとデータがほとんど調整されていません)。 ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

データには、コンセプト 12M、コンセプト キャプション、および元の DALL-E モデル用に OpenAI によって使用された YFCM100M の同じフィルター処理されたサブセットが含まれます。

コンテンツ フィルターや API 制限がない DALL-E mini は、クリエイティブな探求に大きな可能性をもたらし、その結果、Twitter で「奇妙な DALL-E」画像が爆発的に増加しました。

#2021-2022

Katherine Crowson が CLIP の作成を探求する一連の CoLab ノートをリリースモデルの生成をガイドします。

たとえば、512x512CLIP ガイド付き拡散と VQGAN-CLIP (自然言語ガイダンスを使用したオープンドメイン画像の生成と編集は、2022 年にプレプリントとしてのみリリースされましたが、VQGAN の発表と同時に公開実験が開始されました)解放された )。

GAN の初期の頃と同じように、アーティストや開発者は非常に限られた手段で既存のアーキテクチャに大幅な改良を加え、その後企業によって簡素化され、最終的には wombo.ai などの「スタートアップ」によって商品化されました。

#2022 年 4 月

論文「CLIP 潜在的な画像生成による階層テキスト条件」出版されました。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

#この文書では、DALL-E 2 について紹介します。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る


これは、ほんの数週間前に公開された GLIDE 論文に基づいています (" GLIDE : テキストガイドによる拡散モデルを使用したリアルな画像の生成と編集に基づいています。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

同時に、 DALL-E 2 制限され、意図的に制限されているため、DALL-E mini への関心が新たに高まっています。

モデル カードによると、データには「公開されているリソースと当社のリソースの組み合わせ」が含まれています。ライセンスされたリソース」、およびこの論文の完全な CLIP および DALL-E データ セットによると。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

「ブロンドのポートレート写真「女の子、デジタル一眼レフカメラで撮影、中程度の性的背景、高解像度」、DALL-E 2 を使用して生成。トランスフォーマーベースの生成モデルは、StyleGAN 2 などの後の GAN アーキテクチャのリアリズムと一致しますが、さまざまな画像を作成できます。テーマとパターン

2022 年 5 月~6 月

#5 月には、論文「With Deep Language Understanding」「Realistic Text-to-Image Diffusion Model」が出版

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

#6 月、論文「Scaling Autoregression」

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る##これら 2 つの論文では、Imagegen と Parti が紹介されました。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る


と DALL-E 2 に対する Google の回答。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

#「なぜ私が今日あなたを止めたか知っていますか?」 DALL-E 2 によって生成された「プロンプト エンジニアリング」は、それ以来芸術的な画像合成の主要な方法となっています

AI Photoshop (2022 年から現在)

#DALL-E 2 は画像モデリングの新しい標準を設定しましたが、その急速な商用化は、その使用が当初から制限されていることも意味しました。

ユーザーは DALL-E mini などの小型モデルを試し続けました。

その後、画期的な Stable Diffusion のリリースにより、状況はすべて変わりました。

Stable Diffusion は、画像合成の「Photoshop 時代」の始まりであると言えます。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

「ブドウの房が 4 つある静物画、古代の画家ゼウシス フアン エル ラブラドール フェルナンデスのようなものを作ろうとしている、1636 年、プラド美術館、マドリッド ブドウはブドウのように本物そっくり」、安定した拡散によって生み出された 6 つの変更

2022 年 8 月

##Stability.ai が安定拡散モデルをリリースしました。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

#論文「潜在拡散モデルによる高解像度画像合成」の中で、Stability.ai は Stable Diffusion を堂々と開始しました。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

#このモデルは、DALL-E 2 と同じフォトリアリズムを実現できます。

DALL-E 2 に加えて、モデルはほぼ即座に一般公開され、CoLab および Huggingface プラットフォームで実行できます。

2022 年 8 月 #Google は、論文「DreamBooth: テーマ主導型の生成」を発表しました。テキストから画像への拡散モデルを微調整します。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返るDreamBooth では、拡散モデルに対するさらにきめ細かい制御が可能になります。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る#ただし、そのような追加の技術介入がなくても、Photoshop のような生成モデルを使用して、スケッチから開始してレイヤーごとに追加することが可能になります。結果として生じる変更。

#2022 年 10 月

##最大シャッターストック、1フォトギャラリー企業の大手である同社は、OpenAIと協力して生成画像の提供・ライセンス供与を行うと発表したが、安定拡散などの生成モデルによりフォトギャラリー市場は深刻な影響を受けることが予想される。

ヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返る

以上がヒントンもリストに載ってます! AI画像合成の10年の歴史、覚えておきたい論文や名前を振り返るの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Laravelの地理空間:インタラクティブマップと大量のデータの最適化 Laravelの地理空間:インタラクティブマップと大量のデータの最適化 Apr 08, 2025 pm 12:24 PM

700万のレコードを効率的に処理し、地理空間技術を使用したインタラクティブマップを作成します。この記事では、LaravelとMySQLを使用して700万を超えるレコードを効率的に処理し、それらをインタラクティブなマップの視覚化に変換する方法について説明します。最初の課題プロジェクトの要件:MySQLデータベースに700万のレコードを使用して貴重な洞察を抽出します。多くの人は最初に言語をプログラミングすることを検討しますが、データベース自体を無視します。ニーズを満たすことができますか?データ移行または構造調​​整は必要ですか? MySQLはこのような大きなデータ負荷に耐えることができますか?予備分析:キーフィルターとプロパティを特定する必要があります。分析後、ソリューションに関連している属性はわずかであることがわかりました。フィルターの実現可能性を確認し、検索を最適化するためにいくつかの制限を設定しました。都市に基づくマップ検索

MySQLを解決する方法は開始できません MySQLを解決する方法は開始できません Apr 08, 2025 pm 02:21 PM

MySQLの起動が失敗する理由はたくさんあり、エラーログをチェックすることで診断できます。一般的な原因には、ポートの競合(ポート占有率をチェックして構成の変更)、許可の問題(ユーザー許可を実行するサービスを確認)、構成ファイルエラー(パラメーター設定のチェック)、データディレクトリの破損(テーブルスペースの復元)、INNODBテーブルスペースの問題(IBDATA1ファイルのチェック)、プラグインロード障害(エラーログのチェック)が含まれます。問題を解決するときは、エラーログに基づいてそれらを分析し、問題の根本原因を見つけ、問題を防ぐために定期的にデータをバックアップする習慣を開発する必要があります。

インストール後にMySQLの使用方法 インストール後にMySQLの使用方法 Apr 08, 2025 am 11:48 AM

この記事では、MySQLデータベースの操作を紹介します。まず、MySQLWorkBenchやコマンドラインクライアントなど、MySQLクライアントをインストールする必要があります。 1. mysql-uroot-pコマンドを使用してサーバーに接続し、ルートアカウントパスワードでログインします。 2。CreatedAtaBaseを使用してデータベースを作成し、データベースを選択します。 3. createTableを使用してテーブルを作成し、フィールドとデータ型を定義します。 4. INSERTINTOを使用してデータを挿入し、データをクエリし、更新することでデータを更新し、削除してデータを削除します。これらの手順を習得することによってのみ、一般的な問題に対処することを学び、データベースのパフォーマンスを最適化することでMySQLを効率的に使用できます。

酸性特性を理解する:信頼できるデータベースの柱 酸性特性を理解する:信頼できるデータベースの柱 Apr 08, 2025 pm 06:33 PM

データベース酸属性の詳細な説明酸属性は、データベーストランザクションの信頼性と一貫性を確保するための一連のルールです。データベースシステムがトランザクションを処理する方法を定義し、システムのクラッシュ、停電、または複数のユーザーの同時アクセスの場合でも、データの整合性と精度を確保します。酸属性の概要原子性:トランザクションは不可分な単位と見なされます。どの部分も失敗し、トランザクション全体がロールバックされ、データベースは変更を保持しません。たとえば、銀行の譲渡が1つのアカウントから控除されているが別のア​​カウントに増加しない場合、操作全体が取り消されます。 TRANSACTION; updateaccountssetbalance = balance-100wh

MySQLはダウンロード後にインストールできません MySQLはダウンロード後にインストールできません Apr 08, 2025 am 11:24 AM

MySQLのインストール障害の主な理由は次のとおりです。1。許可の問題、管理者として実行するか、SUDOコマンドを使用する必要があります。 2。依存関係が欠落しており、関連する開発パッケージをインストールする必要があります。 3.ポート競合では、ポート3306を占めるプログラムを閉じるか、構成ファイルを変更する必要があります。 4.インストールパッケージが破損しているため、整合性をダウンロードして検証する必要があります。 5.環境変数は誤って構成されており、環境変数はオペレーティングシステムに従って正しく構成する必要があります。これらの問題を解決し、各ステップを慎重に確認して、MySQLを正常にインストールします。

リモートシニアバックエンジニア(プラットフォーム)がサークルが必要です リモートシニアバックエンジニア(プラットフォーム)がサークルが必要です Apr 08, 2025 pm 12:27 PM

リモートシニアバックエンジニアの求人事業者:サークル場所:リモートオフィスジョブタイプ:フルタイム給与:$ 130,000- $ 140,000職務記述書サークルモバイルアプリケーションとパブリックAPI関連機能の研究開発に参加します。ソフトウェア開発ライフサイクル全体をカバーします。主な責任は、RubyonRailsに基づいて独立して開発作業を完了し、React/Redux/Relay Front-Endチームと協力しています。 Webアプリケーションのコア機能と改善を構築し、機能設計プロセス全体でデザイナーとリーダーシップと緊密に連携します。肯定的な開発プロセスを促進し、反復速度を優先します。 6年以上の複雑なWebアプリケーションバックエンドが必要です

mysqlはjsonを返すことができますか mysqlはjsonを返すことができますか Apr 08, 2025 pm 03:09 PM

MySQLはJSONデータを返すことができます。 json_extract関数はフィールド値を抽出します。複雑なクエリについては、Where句を使用してJSONデータをフィルタリングすることを検討できますが、そのパフォーマンスへの影響に注意してください。 JSONに対するMySQLのサポートは絶えず増加しており、最新バージョンと機能に注意を払うことをお勧めします。

バングラ部分モデル検索のlaravelEloquent orm) バングラ部分モデル検索のlaravelEloquent orm) Apr 08, 2025 pm 02:06 PM

LaravelEloquentモデルの検索:データベースデータを簡単に取得するEloquentormは、データベースを操作するための簡潔で理解しやすい方法を提供します。この記事では、さまざまな雄弁なモデル検索手法を詳細に紹介して、データベースからのデータを効率的に取得するのに役立ちます。 1.すべてのレコードを取得します。 ALL()メソッドを使用して、データベーステーブルですべてのレコードを取得します:useapp \ models \ post; $ post = post :: all();これにより、コレクションが返されます。 Foreach Loopまたはその他の収集方法を使用してデータにアクセスできます。

See all articles