GoogleとMITが統一フレームワークMAGEを提案:表現学習はMAEを超え、教師なし画像生成は潜在拡散を超える
認識と生成は人工知能の分野における 2 つの中心的なタスクであり、これらを統合したシステムに統合できれば、これら 2 つのタスクは補完的になるはずです。実際、自然言語処理では、BERT [1] のようなモデルは高品質のテキストを生成できるだけでなく、テキストから特徴を抽出することもできます。
しかし、コンピューター ビジョンの分野では、現在の画像生成モデルと認識モデルはほとんどが別々にトレーニングされており、これら 2 つのタスクの相乗効果が十分に活用されていません。これは主に、画像生成と画像認識のモデルには通常、本質的な構造上の違いがあるという事実によるものです: 画像生成の入力は低次元の特徴またはノイズであり、出力は高次元の元の画像です。画像認識の入力は高次元の元の画像であり、出力は低次元の特徴です。
最近、MIT と Google Research の研究者は、画像セマンティック マスキングに基づいた表現学習手法を提案しました。これにより、統合フレームワークでの画像生成と表現が初めて実現され、学習され、SOTA パフォーマンスが実現されました。複数のデータセットに対して。研究論文は CVPR 2023 に受理され、関連するコードと事前トレーニングされたモデルはオープンソースになりました。
- 紙のアドレス: https://arxiv.org/abs/2211.09117
- コード アドレス: https://github.com/LTH14/mage
CVPR 2022 以降MAE [2] は、イメージ マスク (MIM) に基づく表現学習方法を提案し、複数のサブタスクで非常に良好な結果を達成しました。 MAE は、最大 75% のマスキング率で、元の画像のセマンティクスに厳密に一致する画像を再構築できるため、ネットワークが画像内の特徴を自己監視しながら学習できるようになります。ただし、図 1 に示すように、MAE によって再構成された画像は元の画像と同様の意味情報を持っていますが、深刻なぼやけや歪みの問題が発生します。同様の問題は、すべての MIM ベースの表現学習方法で発生します。同時に、拡散モデルであれ GAN であれ、現在の生成モデルには高品質の画像特徴を抽出する機能がありません。
#図 1: MAE と MAGE の再構築の比較手法概要
上記の課題に対し、本稿の著者は画像の生成と機能を統一的に実現したMAGE(Masked Generative Encoder)を提案しました。抽出モデル。 MIM が画像に直接作用するマスキング方法とは異なり、MAGE は画像の意味シンボルに基づいたマスクされた画像トークン モデリング方法を提案します。図に示すように、MAGE はまず VQGAN [3] エンコーダを使用して、元の画像を離散的な意味シンボルに変換します。その後、MAGE がランダムにマスクし、トランスフォーマーベースのエンコーダー/デコーダー構造を使用してマスクを再構築し、再構築されたセマンティック シンボルを使用して、VQGAN デコーダーを通じて元の画像を生成できます。トレーニングで異なるマスキング レートを使用することにより、MAGE は生成モデル (ほぼ 100% のマスキング レート) と表現学習 (50% ~ 80% のマスキング レート) の両方をトレーニングできます。図1に示すように、MAGEによって再構成された画像は、元の画像と一致する意味情報を有するだけでなく、生成された画像の多様性と信頼性を同時に保証できます。
実験結果
MAGE は、複数の画像生成および画像認識タスクにおいて SOTA に達したか、それを超えました。
ImageNet の教師なし画像生成タスクでは、MAGE の FID は以前の > 20 から 7.04 に低下し、教師あり画像生成のレベルにさえ達しました (ImageNet 上の教師あり潜在拡散の FID は 3.60) :
#写真 3: MAGE の教師なしイメージ生成の例
#MAGE は、イメージのインペイント、アウトペイント、アンクロップなどのさまざまなイメージ編集タスクも実行できます。
#図 4: MAGE 画像編集サンプル表現学習の観点から見ると、MAGE ImageNet 線形プローブ、少数ショット学習、転移学習などのタスクにおいて、現在の MIM 手法と比較して大幅に改善されており、現在の最適な自己教師あり学習手法のレベルに達するか、それを超える可能性があります。
#結論
以上がGoogleとMITが統一フレームワークMAGEを提案:表現学習はMAEを超え、教師なし画像生成は潜在拡散を超えるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









DeepSeekは、特定のデータベースまたはシステムでのみ検索する独自の検索エンジンであり、より速く、より正確です。それを使用する場合、ユーザーはドキュメントを読み、さまざまな検索戦略を試し、ユーザーエクスペリエンスに関するヘルプを求めてフィードバックを求めて、利点を最大限に活用することをお勧めします。

この記事では、SESAME Open Exchange(gate.io)Webバージョンの登録プロセスとGate Tradingアプリを詳細に紹介します。 Web登録であろうとアプリの登録であろうと、公式Webサイトまたはアプリストアにアクセスして、本物のアプリをダウンロードし、ユーザー名、パスワード、電子メール、携帯電話番号、その他の情報を入力し、電子メールまたは携帯電話の確認を完了する必要があります。

Bybit Exchangeリンクを直接ダウンロードしてインストールできないのはなぜですか? BYBITは、ユーザーにトレーディングサービスを提供する暗号通貨交換です。 Exchangeのモバイルアプリは、次の理由でAppStoreまたはGooglePlayを介して直接ダウンロードすることはできません。1。AppStoreポリシーは、AppleとGoogleがApp Storeで許可されているアプリケーションの種類について厳しい要件を持つことを制限しています。暗号通貨交換アプリケーションは、金融サービスを含み、特定の規制とセキュリティ基準を必要とするため、これらの要件を満たしていないことがよくあります。 2。法律と規制のコンプライアンス多くの国では、暗号通貨取引に関連する活動が規制または制限されています。これらの規制を遵守するために、BYBITアプリケーションは公式Webサイトまたはその他の認定チャネルを通じてのみ使用できます

アプリをダウンロードしてアカウントの安全を確保するために、正式なチャネルを選択することが重要です。

この記事では、Binance、Okx、Gate.io、Bitflyer、Kucoin、Bybit、Coinbase Pro、Kraken、Bydfi、Xbit分散化された交換など、注意を払う価値のある上位10の暗号通貨取引プラットフォームを推奨しています。これらのプラットフォームには、トランザクションの数量、トランザクションの種類、セキュリティ、コンプライアンス、特別な機能の点で独自の利点があります。適切なプラットフォームを選択するには、あなた自身の取引体験、リスク許容度、投資の好みに基づいて包括的な検討が必要です。 この記事があなたがあなた自身に最適なスーツを見つけるのに役立つことを願っています

ログインステップやパスワード回復プロセスなど、セサミオープンエクスチェンジWebバージョンのログイン操作の詳細な紹介も、ログイン障害、ページを開くことができず、プラットフォームにスムーズにログインするのに役立つ検証コードを受信できません。

Gate.ioは、幅広い暗号資産と取引ペアを提供する主要な暗号通貨交換です。 gate.ioの登録は非常に簡単です。公式ウェブサイトにアクセスするか、「登録」をクリックし、登録フォームに入力し、電子メールを確認し、2因子検証(2FA)を設定する必要があります。登録を完了します。 gate.ioを使用すると、ユーザーは安全で便利な暗号通貨取引体験を楽しむことができます。
