Google、MIT提出統一框架MAGE:表徵學習超MAE,無監督影像生成超越 Latent Diffusion
識別和生成是人工智慧領域中的兩大核心任務,如果能將二者合併到一個統一的系統中,這兩個任務應該能實現互補。事實上,在自然語言處理中,像 BERT [1] 這樣的模型不僅能夠產生高品質的文本,還能夠提取文本中的特徵。
然而,在電腦視覺領域,目前的圖像生成模型和識別模型大多是分開進行訓練,沒有充分利用這兩個任務的協同作用。這主要是由於圖像生成和圖像識別的模型通常具有本質上的結構差異:圖像生成的輸入是低維度的特徵或噪聲,而輸出是高維度的原始圖像;與之相反,圖像識別的輸入是高維度的原始影像,而輸出是低維度的特徵。
最近,來自MIT 和Google Research 的研究人員提出了一種基於圖像語義符遮罩的表徵學習方法,首次在一個統一的框架中實現了圖像生成和表徵學習,並在多個數據集上取得了SOTA 表現。研究論文已被 CVPR 2023 接收,相關程式碼與預訓練模型已開源。
- #論文網址:https://arxiv.org/abs/2211.09117
- 程式碼位址:https://github.com/LTH14/mage
在CVPR 2022上,MAE [2] 提出了一種基於影像遮罩(MIM)的表徵學習方法,並在多個子任務上取得了非常好的效果。在高達 75% 的遮罩率下,MAE 可以重構出與原圖語意十分貼合的影像,並藉此讓網路能夠自監督地學習影像中的特徵。然而,如圖 1 所示, MAE 重建的影像雖然具有與原始影像相似的語義訊息,但會出現嚴重的模糊與失真問題。類似的問題也出現在所有基於 MIM 的表徵學習方法中。同時,目前的生成模型,不管是擴散模型還是 GAN,都缺乏提取高品質影像特徵的能力。
#圖1:MAE 與MAGE 重構對比
方法概述
針對上述問題,本文作者提出了MAGE(Masked Generative Encoder),首次實現了統一的圖像生成和特徵提取模型。與MIM直接作用於影像的遮罩方法不同,MAGE 提出了基於影像語意符的 masked image token modeling 方法。如圖所示,MAGE 首先使用 VQGAN [3] 編碼器將原始影像轉換為離散的語意符。之後,MAGE 對其進行隨機掩碼,並使用基於 transformer 的 encoder-decoder 結構對掩碼進行重構,重構後的語義符可以透過 VQGAN 解碼器產生原始圖像。透過在訓練中使用不同的遮罩率,MAGE 可以同時進行生成模型(接近 100% 遮罩率)和表徵學習(50%-80% 遮罩率)的訓練。如圖 1 所示,MAGE 重建的圖像不僅具有與原始圖像一致的語義訊息,還能夠同時保證生成圖像的多樣性與真實性。
#圖2:MAGE 結構圖
實驗結果
MAGE 在多個影像產生與影像辨識任務上都達到或超過了SOTA。
在ImageNet 的無監督影像產生任務中,MAGE 的FID 從先前的> 20 降至7.04,甚至達到了有監督影像產生的水準(有監督Latent Diffusion 在ImageNet 上的FID 為3.60) :
圖3:MAGE 無監督影像產生範例
MAGE 也能夠進行各類影像編輯工作,包括image inpainting、outpainting、uncropping:
#圖4:MAGE 映像編輯範例
在在表徵學習方面,MAGE 在ImageNet linear probing、少樣本學習、遷移學習等任務中,相較於目前的MIM 方法有了大幅提升,並且可以達到或超過目前最優的自監督學習方法的水平。
結語
####本文旨在將影像產生與表徵學習統一。為此,本文作者提出了 MAGE,一種基於圖像語義符遮罩的自監督學習框架。該框架簡潔、高效,並首次在圖像生成和表徵學習上都達到或超越了 SOTA 的表現。有興趣的讀者可以查看論文原文,以了解更多研究細節。 ######以上是Google、MIT提出統一框架MAGE:表徵學習超MAE,無監督影像生成超越 Latent Diffusion的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

DeepSeek是一款功能強大的信息檢索工具,其優勢在於能夠深入挖掘信息,但缺點是速度較慢、結果呈現方式較簡單且數據庫覆蓋範圍有限,需要根據具體需求權衡其利弊。

DeepSeek是一個專有搜索引擎,僅在特定數據庫或系統中搜索,速度更快,準確性更高。使用時,建議用戶閱讀文檔、嘗試不同的搜索策略、尋求幫助和反饋使用體驗,以便充分利用其優勢。

本文詳細介紹了芝麻開門交易所(Gate.io)網頁版和Gate交易App的註冊流程。 無論是網頁註冊還是App註冊,都需要訪問官方網站或應用商店下載正版App,然後填寫用戶名、密碼、郵箱和手機號等信息,並完成郵箱或手機驗證。

為什麼Bybit交易所鏈接無法直接下載安裝? Bybit是一個加密貨幣交易所,為用戶提供交易服務。該交易所的移動應用程序不能直接通過AppStore或GooglePlay下載,原因如下:1.應用商店政策限制蘋果公司和谷歌公司對應用商店中允許的應用程序類型有嚴格的要求。加密貨幣交易所應用程序通常不符合這些要求,因為它們涉及金融服務,需要遵循特定的法規和安全標準。 2.法律法規合規在許多國家/地區,與加密貨幣交易相關的活動都受到監管或限制。為了遵守這些規定,Bybit應用程序只能通過官方網站或其他授權渠

本文推荐十大值得关注的加密货币交易平台,涵盖币安(Binance)、OKX、Gate.io、BitFlyer、KuCoin、Bybit、Coinbase Pro、Kraken、BYDFi和XBIT去中心化交易所。这些平台在交易币种数量、交易类型、安全性、合规性、特色功能等方面各有千秋,例如币安以其全球最大的交易量和丰富的功能著称,而BitFlyer则凭借其日本金融厅牌照和高安全性吸引亚洲用户。选择合适的平台需要根据自身交易经验、风险承受能力和投资偏好进行综合考量。 希望本文能帮助您找到最适合自

訪問幣安官方網站最新版登錄入口,只需遵循這些簡單步驟。前往官方網址,點擊右上角的“登錄”按鈕。選擇您現有的登錄方式,如果是新用戶,請“註冊”。輸入您的註冊手機號或郵箱和密碼,並完成身份驗證(例如手機驗證碼或谷歌身份驗證器)。成功驗證後,即可訪問幣安官方網站的最新版登錄入口。

本指南提供了 Bitget 交易所官方 App 的詳細下載和安裝步驟,適用於安卓和 iOS 系統。指南整合了來自多個權威來源的信息,包括官網、App Store 和 Google Play,並強調了下載和賬戶管理過程中的注意事項。用戶可以從官方渠道下載 App,包括應用商店、官網 APK 下載和官網跳轉,並完成註冊、身份驗證和安全設置。此外,指南還涵蓋了常見問題和注意事項,例如
