ホームページ テクノロジー周辺機器 AI GoogleとMITが統一フレームワークMAGEを提案:表現学習はMAEを超え、教師なし画像生成は潜在拡散を超える

GoogleとMITが統一フレームワークMAGEを提案:表現学習はMAEを超え、教師なし画像生成は潜在拡散を超える

Apr 14, 2023 pm 08:28 PM
グーグル 研究

認識と生成は人工知能の分野における 2 つの中心的なタスクであり、これらを統合したシステムに統合できれば、これら 2 つのタスクは補完的になるはずです。実際、自然言語処理では、BERT [1] のようなモデルは高品質のテキストを生成できるだけでなく、テキストから特徴を抽出することもできます。

しかし、コンピューター ビジョンの分野では、現在の画像生成モデルと認識モデルはほとんどが別々にトレーニングされており、これら 2 つのタスクの相乗効果が十分に活用されていません。これは主に、画像生成と画像認識のモデルには通常、本質的な構造上の違いがあるという事実によるものです: 画像生成の入力は低次元の特徴またはノイズであり、出力は高次元の元の画像です。画像認識の入力は高次元の元の画像であり、出力は低次元の特徴です。

最近、MIT と Google Research の研究者は、画像セマンティック マスキングに基づいた表現学習手法を提案しました。これにより、統合フレームワークでの画像生成と表現が初めて実現され、学習され、SOTA パフォーマンスが実現されました。複数のデータセットに対して。研究論文は CVPR 2023 に受理され、関連するコードと事前トレーニングされたモデルはオープンソースになりました。

GoogleとMITが統一フレームワークMAGEを提案:表現学習はMAEを超え、教師なし画像生成は潜在拡散を超える

  • 紙のアドレス: https://arxiv.org/abs/2211.09117
  • コード アドレス: https://github.com/LTH14/mage

CVPR 2022 以降MAE [2] は、イメージ マスク (MIM) に基づく表現学習方法を提案し、複数のサブタスクで非常に良好な結果を達成しました。 MAE は、最大 75% のマスキング率で、元の画像のセマンティクスに厳密に一致する画像を再構築できるため、ネットワークが画像内の特徴を自己監視しながら学習できるようになります。ただし、図 1 に示すように、MAE によって再構成された画像は元の画像と同様の意味情報を持っていますが、深刻なぼやけや歪みの問題が発生します。同様の問題は、すべての MIM ベースの表現学習方法で発生します。同時に、拡散モデルであれ GAN であれ、現在の生成モデルには高品質の画像特徴を抽出する機能がありません。

GoogleとMITが統一フレームワークMAGEを提案:表現学習はMAEを超え、教師なし画像生成は潜在拡散を超える

#図 1: MAE と MAGE の再構築の比較手法概要

上記の課題に対し、本稿の著者は画像の生成と機能を統一的に実現したMAGE(Masked Generative Encoder)を提案しました。抽出モデル。 MIM が画像に直接作用するマスキング方法とは異なり、MAGE は画像の意味シンボルに基づいたマスクされた画像トークン モデリング方法を提案します。図に示すように、MAGE はまず VQGAN [3] エンコーダを使用して、元の画像を離散的な意味シンボルに変換します。その後、MAGE がランダムにマスクし、トランスフォーマーベースのエンコーダー/デコーダー構造を使用してマスクを再構築し、再構築されたセマンティック シンボルを使用して、VQGAN デコーダーを通じて元の画像を生成できます。トレーニングで異なるマスキング レートを使用することにより、MAGE は生成モデル (ほぼ 100% のマスキング レート) と表現学習 (50% ~ 80% のマスキング レート) の両方をトレーニングできます。図1に示すように、MAGEによって再構成された画像は、元の画像と一致する意味情報を有するだけでなく、生成された画像の多様性と信頼性を同時に保証できます。

GoogleとMITが統一フレームワークMAGEを提案:表現学習はMAEを超え、教師なし画像生成は潜在拡散を超える


図 2: MAGE の構造図

実験結果

MAGE は、複数の画像生成および画像認識タスクにおいて SOTA に達したか、それを超えました。

ImageNet の教師なし画像生成タスクでは、MAGE の FID は以前の > 20 から 7.04 に低下し、教師あり画像生成のレベルにさえ達しました (ImageNet 上の教師あり潜在拡散の FID は 3.60) :

GoogleとMITが統一フレームワークMAGEを提案:表現学習はMAEを超え、教師なし画像生成は潜在拡散を超える

GoogleとMITが統一フレームワークMAGEを提案:表現学習はMAEを超え、教師なし画像生成は潜在拡散を超える

#写真 3: MAGE の教師なしイメージ生成の例

#MAGE は、イメージのインペイント、アウトペイント、アンクロップなどのさまざまなイメージ編集タスクも実行できます。

GoogleとMITが統一フレームワークMAGEを提案:表現学習はMAEを超え、教師なし画像生成は潜在拡散を超える

GoogleとMITが統一フレームワークMAGEを提案:表現学習はMAEを超え、教師なし画像生成は潜在拡散を超える

GoogleとMITが統一フレームワークMAGEを提案:表現学習はMAEを超え、教師なし画像生成は潜在拡散を超える

GoogleとMITが統一フレームワークMAGEを提案:表現学習はMAEを超え、教師なし画像生成は潜在拡散を超える

#図 4: MAGE 画像編集サンプル表現学習の観点から見ると、MAGE ImageNet 線形プローブ、少数ショット学習、転移学習などのタスクにおいて、現在の MIM 手法と比較して大幅に改善されており、現在の最適な自己教師あり学習手法のレベルに達するか、それを超える可能性があります。

#結論GoogleとMITが統一フレームワークMAGEを提案:表現学習はMAEを超え、教師なし画像生成は潜在拡散を超える

この記事は、画像生成と表現学習を統合することを目的としています。この目的を達成するために、この記事の著者は、画像セマンティック マスキングに基づく自己教師あり学習フレームワークである MAGE を提案します。このフレームワークはシンプルかつ効率的であり、画像生成と表現学習の両方において初めて SOTA のパフォーマンスに到達、またはそれを超えています。興味のある読者は、論文の原文を閲覧して研究の詳細を学ぶことができます。

以上がGoogleとMITが統一フレームワークMAGEを提案:表現学習はMAEを超え、教師なし画像生成は潜在拡散を超えるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Deepseekをコメントする方法 Deepseekをコメントする方法 Feb 19, 2025 pm 05:42 PM

DeepSeekは、強力な情報を取得することですが、その不利な点は遅いことです。

DeepSeekを検索する方法 DeepSeekを検索する方法 Feb 19, 2025 pm 05:39 PM

DeepSeekは、特定のデータベースまたはシステムでのみ検索する独自の検索エンジンであり、より速く、より正確です。それを使用する場合、ユーザーはドキュメントを読み、さまざまな検索戦略を試し、ユーザーエクスペリエンスに関するヘルプを求めてフィードバックを求めて、利点を最大限に活用することをお勧めします。

セサミオープンドア交換Webページ登録リンクゲートトレーディングアプリ登録Webサイト最新 セサミオープンドア交換Webページ登録リンクゲートトレーディングアプリ登録Webサイト最新 Feb 28, 2025 am 11:06 AM

この記事では、SESAME Open Exchange(gate.io)Webバージョンの登録プロセスとGate Tradingアプリを詳細に紹介します。 Web登録であろうとアプリの登録であろうと、公式Webサイトまたはアプリストアにアクセスして、本物のアプリをダウンロードし、ユーザー名、パスワード、電子メール、携帯電話番号、その他の情報を入力し、電子メールまたは携帯電話の確認を完了する必要があります。

Bybit Exchangeリンクを直接ダウンロードしてインストールできないのはなぜですか? Bybit Exchangeリンクを直接ダウンロードしてインストールできないのはなぜですか? Feb 21, 2025 pm 10:57 PM

Bybit Exchangeリンクを直接ダウンロードしてインストールできないのはなぜですか? BYBITは、ユーザーにトレーディングサービスを提供する暗号通貨交換です。 Exchangeのモバイルアプリは、次の理由でAppStoreまたはGooglePlayを介して直接ダウンロードすることはできません。1。AppStoreポリシーは、AppleとGoogleがApp Storeで許可されているアプリケーションの種類について厳しい要件を持つことを制限しています。暗号通貨交換アプリケーションは、金融サービスを含み、特定の規制とセキュリティ基準を必要とするため、これらの要件を満たしていないことがよくあります。 2。法律と規制のコンプライアンス多くの国では、暗号通貨取引に関連する活動が規制または制限されています。これらの規制を遵守するために、BYBITアプリケーションは公式Webサイトまたはその他の認定チャネルを通じてのみ使用できます

セサミオープンドアトレーディングプラットフォームダウンロードモバイルバージョンgateioトレーディングプラットフォームのダウンロードアドレス セサミオープンドアトレーディングプラットフォームダウンロードモバイルバージョンgateioトレーディングプラットフォームのダウンロードアドレス Feb 28, 2025 am 10:51 AM

アプリをダウンロードしてアカウントの安全を確保するために、正式なチャネルを選択することが重要です。

Crypto Digital Asset Trading App(2025グローバルランキング)に推奨されるトップ10 Crypto Digital Asset Trading App(2025グローバルランキング)に推奨されるトップ10 Mar 18, 2025 pm 12:15 PM

この記事では、Binance、Okx、Gate.io、Bitflyer、Kucoin、Bybit、Coinbase Pro、Kraken、Bydfi、Xbit分散化された交換など、注意を払う価値のある上位10の暗号通貨取引プラットフォームを推奨しています。これらのプラットフォームには、トランザクションの数量、トランザクションの種類、セキュリティ、コンプライアンス、特別な機能の点で独自の利点があります。適切なプラットフォームを選択するには、あなた自身の取引体験、リスク許容度、投資の好みに基づいて包括的な検討が必要です。 この記事があなたがあなた自身に最適なスーツを見つけるのに役立つことを願っています

セサミオープンドアエクスチェンジウェブページログイン最新バージョンgateio公式ウェブサイトの入り口 セサミオープンドアエクスチェンジウェブページログイン最新バージョンgateio公式ウェブサイトの入り口 Mar 04, 2025 pm 11:48 PM

ログインステップやパスワード回復プロセスなど、セサミオープンエクスチェンジWebバージョンのログイン操作の詳細な紹介も、ログイン障害、ページを開くことができず、プラットフォームにスムーズにログインするのに役立つ検証コードを受信できません。

gate.io交換公式登録ポータル gate.io交換公式登録ポータル Feb 20, 2025 pm 04:27 PM

Gate.ioは、幅広い暗号資産と取引ペアを提供する主要な暗号通貨交換です。 gate.ioの登録は非常に簡単です。公式ウェブサイトにアクセスするか、「登録」をクリックし、登録フォームに入力し、電子メールを確認し、2因子検証(2FA)を設定する必要があります。登録を完了します。 gate.ioを使用すると、ユーザーは安全で便利な暗号通貨取引体験を楽しむことができます。

See all articles