何愷明和謝賽寧團隊成功跟隨解構擴散模型探索，最終創造出備受讚譽的去噪自編碼器-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

何愷明和謝賽寧團隊成功跟隨解構擴散模型探索，最終創造出備受讚譽的去噪自編碼器

PHPz

Jan 29, 2024 pm 02:15 PM

工程 l-dae dae ddm

去雜訊擴散模型（DDM）是目前廣泛應用於影像產生的一種方法。最近，Xinlei Chen、Zhuang Liu、謝賽寧和何愷明四人團隊對DDM進行了解構研究。透過逐步剝離其組件，他們發現DDM的生成能力逐漸下降，但表徵學習能力仍保持一定水準。這說明DDM中的某些組件對於表徵學習的作用可能並不重要。

針對目前電腦視覺等領域的生成模型，去噪被認為是一種核心方法。這類方法通常稱為去噪擴散模型（DDM），透過學習一個去噪自動編碼器（DAE），能夠透過擴散過程有效地消除多個層級的雜訊。

這些方法實現了出色的影像生成質量，尤其適合生成高解析度、類似照片的仿真實影像。這些生成模型的表現非常優秀，幾乎可以被認為具有強大的辨識能力，能夠理解所產生的視覺內容。

儘管 DAE 是目前生成模型的核心，但最早的論文《Extracting and composing robust features with denoising autoencoders》卻是為了透過監督式方法來學習資料的表徵。這篇論文提出了一種能夠提取和組合穩健特徵的方法。它的目標是透過去噪自編碼器來學習輸入資料的有用表示，從而提高監督學習任務的表現。這種方法的成功應用證明了 DAE 在生成模型中的重要性。

在目前的表徵學習社群中，基於"掩碼雜訊"的變體被認為是DAE最成功的，例如預測語言中缺少的文字（如BERT）或影像中缺少的圖塊。

儘管基於遮罩的變體明確指定了未知和已知的內容，它們與去除加性雜訊的任務有著明顯的區別。在分離加性噪音的任務中，沒有明確的資訊可用於指導處理過程。然而，目前用於生成任務的 DDM 主要基於加性噪聲，這意味著在學習表徵時可能沒有明確地標記出未知和已知的內容。因此，這種差異可能導致基於遮罩的變體在處理加性雜訊時表現出不同的效果。

近來，對於DDM（Deep Denoising Model）的表徵學習能力的研究日益增多。這些研究直接採用已經預先訓練好的DDM模型（原本用於生成任務），並評估它們在辨識任務中的表徵品質。這些以生成為導向的模型的運用帶來了令人振奮的結果。

然而，這些開創性研究也暴露出了一些未解決的問題：這些現有的模型旨在用於生成任務，而不是識別任務，因此我們無法確定它們的表徵能力是通過去噪驅動還是擴散驅動過程獲得的。

Xinlei Chen 等人的研究則在這一研究方向上邁出了一大步。

何愷明和謝賽寧團隊成功跟隨解構擴散模型探索，最終創造出備受讚譽的去噪自編碼器

論文標題：Deconstructing Denoising Diffusion Models for Self-Supervised Learning
論文地址：https: //arxiv.org/pdf/2401.14404.pdf

他們沒有使用現有的面向生成的DDM，而是訓練了以識別為導向的模型。這項研究的核心理念是解構 DDM，一步一步地修改它，直到將其變成經典的 DAE。

透過這個解構研究過程，他們仔細探討了現代 DDM 在學習表徵目標上的每個面向。這個研究過程為 AI 社群帶來了全新的理解 —— 要學習一個好表徵，DAE 需要哪些關鍵元件。

令人驚訝的是，他們發現其中的主要關鍵元件是 token 化器，其功能是創建低維隱空間。有趣的是，這項觀察結果很大程度上與特定的 token 化器無關 —— 他們探索了標準的 VAE、圖塊級 VAE、圖塊級 AE、圖塊級 PCA 編碼器。他們發現，讓 DAE 得到好表徵的是低維隱空間，並不是具體的 token 化器。

得益於 PCA 的有效性，該團隊一路解構下來，最終得到了一個與經典 DAE 高度相似的簡單架構（見圖 1）。

何愷明和謝賽寧團隊成功跟隨解構擴散模型探索，最終創造出備受讚譽的去噪自編碼器

他們使用圖塊級 PCA 將影像投影到一個隱空間，添加噪聲，再透過逆 PCA 投影回來。然後訓練一個自動編碼器來預測去雜訊後的影像。

他們將這個架構稱為 latent Denoising Autoencoder（l-DAE），也就是隱去噪自動編碼器。

團隊的解構過程也揭示了 DDM 和經典 DAE 之間的許多其它有趣的特性。

舉個例子，他們發現，即使使用單一的噪音等級（即不使用 DDM 的噪音調度），也能透過 l-DAE 取得不錯的結果。使用多層雜訊的作用就像是某種形式的資料增強，這可能是有益的，但並非一個促成因素。

基於這些觀察，團隊認為 DDM 的表徵能力主要是透過去噪驅動的過程獲得的，而不是擴散驅動的過程。

最後，團隊也將自己所取得的結果與先前的基準進行了比較。一方面，新的結果比之前已有的方法更好：這符合預期，因為那些模型本來就是解構過程的起點。另一方面，新架構的結果比不上基準的對比學習方法和基於遮罩的方法，但差距減少了一些。這也說明 DAE 和 DDM 研究方向上還有進一步的研究空間。

背景：去雜訊擴散模型

這項解構研究的起點是去雜訊擴散模型（DDM）。

何愷明和謝賽寧團隊成功跟隨解構擴散模型探索，最終創造出備受讚譽的去噪自編碼器

至於DDM，可參考論文《Diffusion models beat GANs on image synthesis》和《Scalable Diffusion Models with Transformers》以及本站的相關報道《統治擴散模型的U-Net 要被取代了，謝賽寧等引入Transformer 提出DiT》。

解構去噪擴散模型

我們這裡關注的重點是其解構過程 —— 這個過程分為三個階段。首先是將 DiT 中以生成為中心的設定改成更面向自監督學習的設定。接下來，逐步解構並簡化 token 化器。最後，他們嘗試逆向盡可能多的 DDM 驅動的設計，讓模型靠近經典 DAE 。

讓DDM 重新轉向自監督學習

儘管從概念上講，DDM 是DAE 的一種形式，但它其實一開始是為圖像生成任務開發出來的。 DDM 中的許多設計都是以生成任務為導向的。某些設計本身並不適合自監督學習（例如涉及類別標籤）；有些設計則在不考慮視覺品質時並不是必需的。

這一節，團隊將把 DDM 的目的調整為自監督學習。表 1 展示了此階段的進展過程。

何愷明和謝賽寧團隊成功跟隨解構擴散模型探索，最終創造出備受讚譽的去噪自編碼器

移除類別條件化處理

第一步是移除基準模型中的類別條件處理流程。

出乎意料的是，移除類別條件化處理會顯著提升線性探測準確度（linear probe accuracy，從57.5% 到62.1%），然而生成質量卻如預期那樣會大幅下降（FID 從11.6到34.2）。

該團隊猜想：直接在類別標籤上對模型進行條件化處理可能會降低模型對編碼類別標籤相關資訊的需求。而移除類別條件化處理則會迫使模型學習更多語意

解構VQGAN

DiT 從LDM 繼承而來的VQGAN token 化器的訓練過程使用了多個損失項：自動編碼重建損失、KL 散度正則化損失、基於為ImageNet 分類訓練的監督式VGG 網路的感知損失、使用判別器的對抗損失。該團隊對後兩項損失進行了消融研究，見表 1。

當然，移除這兩項損失都會影響生成質量，但在線性探測準確度指標上，移除感知損失會讓其從62.5% 降至58.4%，而移除對抗損失則會讓其上升，從58.4% 到59.0%。而移除對抗損失之後，token 化器本質上就是一個 VAE 了。

取代雜訊調度

該團隊研究了一個更簡單的雜訊調度方案以支援自監督學習。

何愷明和謝賽寧團隊成功跟隨解構擴散模型探索，最終創造出備受讚譽的去噪自編碼器

具體來說，就是讓訊號的縮放因子 γ^2_t 在 1>γ^2_t≥0 的範圍內線性衰減。這讓模型可把更多能力投放到更清晰的影像上。這會讓線性探測準確度從 59.0% 顯著升至 63.4%。

解構 token 化器

接下來透過大量簡化來解構 VAE token 化器。他們比較了四種作為token 化器的自動編碼器變體，每一種都是前一種的簡化版本：

卷積VAE：這是上一步解構的結果；常見情況是這種VAE 的編碼器和解碼器是深度卷積神經網路。
圖塊級 VAE：讓輸入變成圖塊。
圖塊級 AE：移除了 VAE 的正規化項，使得 VAE 基本上變成 AE，其編碼器和解碼器都是線性投影。
圖塊級 PCA：即在圖塊空間上執行主成分分析（PCA），這是一種更簡單的變體。很容易證明 PCA 等價於 AE 的特例。

由於使用圖塊很簡單，因此該團隊對三個圖塊級 token 化器在圖塊空間的過濾器進行了可視化，見圖 4。

何愷明和謝賽寧團隊成功跟隨解構擴散模型探索，最終創造出備受讚譽的去噪自編碼器

表 2 總結了使用這四種 token 化器變體時 DiT 的線性探測準確度。

何愷明和謝賽寧團隊成功跟隨解構擴散模型探索，最終創造出備受讚譽的去噪自編碼器

他們觀察到了以下結果：

要讓DDM 很好地執行自監督學習，token 化器的隱含維度至關重要。
對自監督學習而言，高解析度的、基於像素的DDM 效果很差（見圖5.

變成經典的去噪自動編碼器

解構的下一步目標是使模型盡可能地接近經典DAE。也就是要移除讓當前的基於PCA 的DDM 和經典DAE 不同的各個面向。結果見表3。

何愷明和謝賽寧團隊成功跟隨解構擴散模型探索，最終創造出備受讚譽的去噪自編碼器

預測清晰的資料（而非噪聲）

現代DDM 通常是預測噪聲，而經典DAE 則是預測清晰數據。該團隊的做法是透過調整損失函數來為更清晰的數據的損失項賦予更多權重。

如此修改會讓線性探測準確度從65.1% 降至62.4%。這表示預測目標的選擇會影響表徵的品質。

移除輸入縮放

在現代DDM 中，輸入有一個縮放因子γ_t。但經典DAE 中卻不常這樣操作。

透過設定γ_t ≡ 1，團隊發現得到了63.6% 的準確度（見表3），相較於γ_t 可變的模型（62.4%）還好一些。這說明在當前場景中，對輸入進行縮放是完全沒必要的。

使用逆PCA 對圖像空間進行操作

到目前為止，對於前面探索過的所有條目（圖5 除外），模型都運作在由token 化器產生的隱含空間上（圖2 (b)）。理想情況下，我們希望DAE 能直接操作影像空間，同時還能位置優良的準確度。團隊發現，既然使用了PCA，那麼就可以使用逆PCA 來實現這一目標。參見圖1。

透過在輸入端進行這樣的修改（依然在隱含空間上預測輸出），可得到63.6% 的準確度（表3）。而如果進一步將其應用於輸出端（即使用逆PCA 在影像空間上預測輸出），可得到63.9% 的準確度。兩個結果都表明，使用逆PCA 在影像空間上進行操作所得的結果近似於在隱含空間上的結果。

預測原始影像

雖然逆PCA 可以在影像空間中得到預測目標，但該目標不是原始影像。這是因為對於任何經過降維的維度d 而言，PCA 都是有損編碼器。相較之下，更自然的解決方案是直接預測原始影像。

當讓網路預測原始影像時，引入的「雜訊」包括兩部分：加性高斯雜訊（其內在維度為d）和PCA 重建誤差（其內在維度為D − d（D 為768））。團隊的做法是對這兩個部分分開進行加權。

透過該團隊的設計，可讓預測原始影像實現64.5% 的線性探測準確度。

這個變體在概念上非常簡單：其輸入是一張有雜訊影像，其中雜訊是添加到 PCA 隱含空間中，它的預測結果是原始的乾淨影像（圖 1）。

單一噪音等級

最後，在好奇心的驅使下，團隊也研究了具有單一噪音等級的變體。他們指出，透過雜訊調度實現的多層雜訊是 DDM 的擴散過程的一個屬性。而經典 DAE 在概念上並不必需要多級噪音。

他們將噪音等級 σ 固定成了一個常數 √(1/3)。使用這個單級噪聲，模型的準確度為相當不錯的 61.5%，相比於多級噪聲的 64.5% 僅降低了三個百分點。

使用多層雜訊類似於 DAE 中一種形式的資料增強：它是有益的，但不是促成因素。這也意味著 DDM 的表徵能力主要來自於去噪驅動的過程，而不是來自擴散驅動的過程。

總結

總而言之，團隊對現代 DDM 進行了解構，讓其變成了經典 DAE。

何愷明和謝賽寧團隊成功跟隨解構擴散模型探索，最終創造出備受讚譽的去噪自編碼器

他們去除了許多現代設計，並且在概念上只保留了兩個承襲自現代 DDM 的設計：低維隱含空間（這是添加噪聲的位置）和多級噪聲。

他們使用表 3 最後一項作為最後的 DAE 實例（如圖 1 所示）。他們將這種方法稱為 latent Denoising Autoencoder（隱去噪自動編碼器），簡稱為 l-DAE。

分析與比較

可視化隱含雜訊

#從概念上講，l-DAE 是DAE 的一種形式，可學習移除添加到隱含空間的雜訊。由於 PCA 很簡單，於是可以輕鬆地對逆 PCA 的隱含雜訊進行視覺化。

圖 7 比較了添加到像素和添加到隱含空間的雜訊。不同於像素噪聲，隱含噪聲很大程度上與影像的分辨率無關。如果使用圖塊級 PCA 作為 token 化器，隱含雜訊的模式主要由圖塊大小決定。

何愷明和謝賽寧團隊成功跟隨解構擴散模型探索，最終創造出備受讚譽的去噪自編碼器

去雜訊結果

圖 8 展示了基於 l-DAE 的更多去噪結果範例。可以看到，新方法能得到比較好的預測結果，即便噪音濃厚。

何愷明和謝賽寧團隊成功跟隨解構擴散模型探索，最終創造出備受讚譽的去噪自編碼器

資料增強

需要指出，這裡給出的所有模型都沒有使用資料增強：僅使用了影像中心區域裁剪，沒有隨機的大小調整或顏色抖動。團隊做了進一步的研究，測試了為最終的 l-DAE 使用溫和的數據增強：

何愷明和謝賽寧團隊成功跟隨解構擴散模型探索，最終創造出備受讚譽的去噪自編碼器

結果略有改善。這顯示 l-DAE 的表徵學習能力很大程度上與資料增強無關。在 MAE 中也觀察到了類似的行為，參閱何愷明等人的論文《Masked autoencoders are scalable vision learners》，這與對比學習方法大不相同。

訓練 epoch

之前的所有實驗都基於 400 epoch 的訓練。按照MAE 的設計，團隊也研究了800 和1600 epoch 的訓練：

何愷明和謝賽寧團隊成功跟隨解構擴散模型探索，最終創造出備受讚譽的去噪自編碼器

相比之下，當epoch 數從400 升至800 時，MAE 有顯著增益（4%）；但MoCo v3 在epoch 數從300 升至600 時卻幾乎沒有增益（0.2%）。

模型大小

之前的所有模型都是基於 DiT-L 變體，其編碼器和解碼器都是 ViT-1/2L（ViT-L 的一半深度）。團隊進一步訓練了不同大小的模型，其編碼器是ViT-B 或ViT-L（解碼器的大小總是與編碼器一樣）：

何愷明和謝賽寧團隊成功跟隨解構擴散模型探索，最終創造出備受讚譽的去噪自編碼器

可以看到：當模型大小從ViT-B 變大成ViT-L 時，能獲得10.6% 的巨大增益。

比較先前的基準模型

最後，為了更好地理解不同類型的自監督學習方法的效果，團隊進行了一番比較，結果見表 4。

何愷明和謝賽寧團隊成功跟隨解構擴散模型探索，最終創造出備受讚譽的去噪自編碼器

有趣的是，相較於MAE，l-DAE 的表現還不錯，只有1.4% (ViT-B) 或0.8% (ViT-L)的下降。另一方面，團隊也指出 MAE 的訓練效率更高，因為它只處理無遮罩圖塊。儘管如此，MAE 和 DAE 驅動的方法之間的準確度差距已經在很大程度上縮小了。

最後，他們也觀察到，相較於該協定下的對比學習方法，基於自動編碼器的方法（MAE 和 l-DAE）仍然存在不足，特別是當模型很小時。他們最後表示：「我們希望我們的研究能吸引人們更加關注以基於自動編碼器的方法實現自監督學習的研究。」

以上是何愷明和謝賽寧團隊成功跟隨解構擴散模型探索，最終創造出備受讚譽的去噪自編碼器的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學

1666

CakePHP 教程

1425

Laravel 教程

1327

PHP教程

1273

C# 教程

1253

Related knowledge

ControlNet作者又出爆款！一張圖生成繪畫全過程，兩天狂攬1.4k Star Jul 17, 2024 am 01:56 AM

同樣是圖生視頻，PaintsUndo走出了不一樣的路線。 ControlNet作者LvminZhang又開始整活了！這次瞄準繪畫領域。新項目PaintsUndo剛上線不久，就收穫1.4kstar（還在瘋狂漲）。項目地址：https://github.com/lllyasviel/Paints-UNDO透過這個項目，用戶輸入一張靜態圖像，PaintsUndo就能自動幫你生成整個繪畫的全過程視頻，從線稿到成品都有跡可循。繪製過程，線條變化多端甚是神奇，最終視頻結果和原始圖像非常相似：我們再來看一個完整的繪

登頂開源AI軟體工程師榜首，UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 Jul 17, 2024 pm 10:02 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年，本站AIxiv專欄接收通報了2,000多篇內容，涵蓋全球各大專院校與企業的頂尖實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或聯絡報道。投稿信箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com這篇論文的作者皆來自伊利諾大學香檳分校（UIUC）張令明老師團隊，包括：StevenXia，四年級博士生，研究方向是基於AI大模型的自動代碼修復；鄧茵琳，四年級博士生，研究方

從RLHF到DPO再到TDPO，大模型對齊演算法已經是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年，本站AIxiv專欄接收通報了2,000多篇內容，涵蓋全球各大專院校與企業的頂尖實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或聯絡報道。投稿信箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com在人工智慧領域的發展過程中，對大語言模型（LLM）的控制與指導始終是核心挑戰之一，旨在確保這些模型既強大又安全地服務人類社會。早期的努力集中在透過人類回饋的強化學習方法（RL

arXiv論文可以發「彈幕」了，史丹佛alphaXiv討論平台上線，LeCun按讚 Aug 01, 2024 pm 05:18 PM

乾杯！當論文討論細緻到詞句，是什麼體驗？最近，史丹佛大學的學生針對arXiv論文創建了一個開放討論論壇——alphaXiv，可以直接在任何arXiv論文之上發布問題和評論。網站連結：https://alphaxiv.org/其實不需要專門訪問這個網站，只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開相應論文：可以精準定位到論文中的段落、句子：右側討論區，使用者可以發表問題詢問作者論文想法、細節，例如：也可以針對論文內容發表評論，例如：「給出至

黎曼猜想显著突破！陶哲轩强推MIT、牛津新论文，37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近，被稱為千禧年七大難題之一的黎曼猜想迎來了新突破。黎曼猜想是數學中一個非常重要的未解決問題，與素數分佈的精確性質有關（素數是那些只能被1和自身整除的數字，它們在數論中扮演著基礎性的角色）。在當今的數學文獻中，已有超過一千個數學命題以黎曼猜想（或其推廣形式）的成立為前提。也就是說，黎曼猜想及其推廣形式一旦被證明，這一千多個命題將被確立為定理，對數學領域產生深遠的影響；而如果黎曼猜想被證明是錯誤的，那麼這些命題中的一部分也將隨之失去其有效性。新的突破來自MIT數學教授LarryGuth和牛津大學

OpenAI超級對齊團隊遺作：兩個大模型博弈一番，輸出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型給的答案一點也看不懂，你敢用嗎？隨著機器學習系統在更重要的領域中得到應用，證明為什麼我們可以信任它們的輸出，並明確何時不應信任它們，變得越來越重要。獲得對複雜系統輸出結果信任的一個可行方法是，要求系統對其輸出產生一種解釋，這種解釋對人類或另一個受信任的系統來說是可讀的，即可以完全理解以至於任何可能的錯誤都可以被發現。例如，為了建立對司法系統的信任，我們要求法院提供清晰易讀的書面意見，解釋並支持其決策。對於大型語言模型來說，我們也可以採用類似的方法。不過，在採用這種方法時，確保語言模型生

LLM用於時序預測真的不行，連推理能力都沒用到 Jul 15, 2024 pm 03:59 PM

語言模型真的能用於時序預測嗎？根據貝特里奇頭條定律（任何以問號結尾的新聞標題，都能夠用「不」來回答），答案應該是否定的。事實似乎也果然如此：強大如斯的LLM並不能很好地處理時序資料。時序，即時間序列，顧名思義，是指一組依照時間發生先後順序排列的資料點序列。在許多領域，時序分析都很關鍵，包括疾病傳播預測、零售分析、醫療和金融。在時序分析領域，近期不少研究者都在研究如何使用大型語言模型（LLM）來分類、預測和偵測時間序列中的異常。這些論文假設擅長處理文本中順序依賴關係的語言模型也能泛化用於時間序

首個基於Mamba的MLLM來了！模型權重、訓練程式碼等已全部開源 Jul 17, 2024 am 02:46 AM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com。引言近年来，多模态大型语言模型（MLLM）在各个领域的应用取得了显著的成功。然而，作为许多下游任务的基础模型，当前的MLLM由众所周知的Transformer网络构成，这种网

See all articles

何愷明和謝賽寧團隊成功跟隨解構擴散模型探索，最終創造出備受讚譽的去噪自編碼器

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題