過程」這一問題的理解仍然很不深刻。也正因如此,目前學界的相關研究大多還停留在「解釋」模型已經學到的特徵的層面,而很難透過對於其學習過程的「幹預」來得到更加數據高效、泛化性更強的模型。 當我們討論神經網路的特徵學習過程時,一個最基本的問題是:神經網路會從輸入資料中學到什麼特徵?從目標上看,神經網路的特徵學習是任務驅動下的“副產品”,其目的就是為了最小化訓練誤差。因此我們會直觀地想,神經網路應該從資料中提取「任務相關」的特徵,而剩餘的「任務無關」的特徵則相當於資料雜訊。那麼,由於神經網路自帶「非必要不學習」(更準確地說是simplicity bias)的特點,神經網路就應該傾向於不對它們進行學習。這也是目前文獻中比較普遍的觀點。 然而,在我們最近的一篇被ICML 2024接收的工作中,我們發現這樣的直觀認知實際上是
錯誤的!具體而言,我們發現非線性神經網路在學習任務相關的特徵時還會同時有學習
任務不相關特徵的傾向(我們稱之為"特徵污染"),並且這種傾向會導致神經網路難以泛化至具有分佈偏移(distribution shift)的場景。理論上,我們證明了特徵污染即使在簡單的兩層ReLU網絡中都會出現,並且和神經網絡中神經元激活的類別不對稱性息息相關;實驗上,我們也給出了一系列證據表明特徵污染在ResNet、Vision transformer等深層網絡中也同樣存在,並且會對其泛化性產生不利影響。 值得一提的是,我們發現的這種failure mode和當前分佈外(out-of-distribution, OOD)泛化文獻中主流的基於虛假相關性(spurious correlations)的分析是完全正交的。因此,從更大的角度看,我們的發現側面表明了神經網路自身的歸納偏置(inductive bias)對於OOD泛化的重要性,同時也表明:我們關於神經網路特徵學習和泛化的許多已有直覺可能也都需要被重新思考。 接下來,我們介紹一下文章的具體內容:
研究背景在數據分佈變化的場景中的泛化能力(也即OOD泛化能力)是衡量機器學習系統能否在現實環境中部署的關鍵指標之一。然而,目前的神經網路在OOD泛化場景中經常會遭遇顯著的性能損失。關於OOD泛化失敗的原因,文獻中比較主流的說法是表徵中存在的虛假相關性(spurious correlations),也即模型會學習到與任務目標相關但無因果關係的特徵。於是,當這些特徵和任務目標之間的相關性因分佈偏移而改變時,依賴這些特徵進行預測的模型就無法保證原有表現。
以上這個理論解釋相當直觀且自然,也成為了指導近年來OOD演算法研究的主線,即透過設計更好的最佳化目標函數和正則項來使得模型學習到更好的、沒有虛假相關性的表徵,以期得到更強的泛化性能。近年來,已經有大量工作沿著這條主線試圖透過演算法設計來提升模型的OOD泛化性。然而,近來的工作顯示許多自帶理論保障的演算法在基於真實資料的OOD泛化任務上的效能提升卻非常有限。 為什麼會出現這樣的狀況?我們認為,目前 OOD 泛化研究的困難可能來自現有分析的
兩個限制:
換言之,目前對OOD泛化的解釋和理論模型可能無法準確地反映真實世界的分佈偏移場景。因此我們認為,考慮神經網路和SGD的inductive bias對於理解基於深度神經網路的OOD泛化是十分必要的。
實驗
首先,我們嘗試透過實驗設計對目前基於表徵學習目標設計的OOD泛化演算法所能取得的「表現上界」進行預估。現有工作在假相關性理論的引導下,主要嘗試透過設計輔助的表徵學習目標函數來約束模型學習到可OOD泛化的表徵。為了研究優化這樣的目標是否能真正提取到期望的表徵,我們設計了一個理想化的場景:
實驗結果如上圖所示。從圖中我們有兩個主要發現:
於是我們自然會問:既然都已經直接擬合了teacher model的表徵,那student model和teacher model之間的泛化性gap從何而來?我們發現其實目前已有的理論解釋是很難直接解釋這個實驗現象的:
簡言之,我們認為現有的分析不足以解釋我們在實驗中實際觀測到的OOD泛化能力gap。同時,既然「直接適合可OOD泛化的表徵」都不能保證得到可以OOD泛化的模型,那麼我們也就不得不在考慮表徵學習的「目標」之外同時考慮表徵學習的「過程”,也就是神經網路的特徵學習動力學所帶來的inductive bias。儘管從理論上直接分析深層神經網路的特徵學習過程是十分困難的,但我們發現,即使是兩層ReLU網路也會表現出很有趣的特徵學習傾向,也即“特徵污染”,而這一傾向又和神經網路的OOD泛化有著直接的連結。
理論
本節,我們在一個基於兩層ReLU網路的二分類問題上證明了「特徵污染」現象的存在性,並且分析了這種現象的來源。具體而言,我們假定網路的輸入是由兩種特徵線性組合而成:「核心特徵」和「背景特徵」。其中,核心特徵的分佈取決於類別標籤(可以形象理解為圖像分類問題中的待分類物體),而背景特徵的分佈和標籤無關(可以形象理解為圖像分類問題中的圖片背景等其他要素)。為了排除其他因素的干擾,我們也對這兩類特徵作以下假設:
我們發現,即使在以上的條件下,神經網路仍然會在學習核心特徵的同時學習和任務完全不相關的背景特徵。由於這兩種特徵在網路權重空間的耦合,在背景特徵上發生的分佈偏移也會導致神經網路的誤差增大,進而降低網路的OOD泛化性。我們也因此把這種神經網路的特徵學習偏好稱之為「特徵污染」。以下,我們詳細介紹特徵污染現象的出現原因。整體分析思路的示意圖如下:
我們分析中的關鍵點在於:特徵污染實際上和神經網絡中的神經元往往對不同類別具有不對稱激活(asymmetric activation)有關。具體而言,我們可以證明在經過足夠的SGD迭代後,網絡中至少有相當一部分的神經元都會被傾向於而與一個類別的樣本保持正相關(我們稱之為該神經元的正樣本,並用ypos表示其類別),而與另一個類別的樣本保持負相關(我們稱之為該神經元的負樣本,並用yneg表示其類別)。這就會導致這些神經元的活化具有類別不對稱性,如定理4.1所示:
這樣的類別不對稱性是怎麼影響神經網路的特徵學習過程的呢?我們首先註意到,對於網路隱層的第k個神經元,其權重向量wk在第t次迭代後可以被拆分為:
上式中,Score和S bg分別表示核心特徵和背景特徵的集合,其中每個mj都對應一個核心特徵或背景特徵。從該式我們可以看出,神經元的權重可以分解為其在不同特徵上的投影(這裡我們假設不同的mj之間都是正交的單位向量)。進一步地,我們可以證明在wk的負梯度在每一個背景特徵mj,j屬於Sbg上的投影滿足:
對於具有類別不對稱活化的神經元根據定理4.1我們可得其梯度主要取決於該神經元的正樣本y=ypos而和負樣本y=yneg幾乎無關。這就導致正樣本中存在的核心特徵和背景特徵會同時得到正的梯度投影,而這個過程和特徵與標籤之間的相關性無關。
如定理4.2所示,我們證明了在經過足夠的SGD迭代後,上面這種梯度投影的累積將導致神經元學習到的特徵既包含核心特徵,也包含耦合的背景特徵:
由於核心特徵和背景特徵在神經元權重中的耦合,背景特徵的負向分佈偏移會降低神經元的激活,導致額外的OOD 誤差。如定理4.3所示,我們定量描述了特徵污染對ID 和OOD 泛化風險的影響:
同時,為了進一步說明特徵污染源自神經網路的非線性活化函數之間的關係,我們證明了在去除掉神經網路的非線性後,特徵污染將不再發生:
如下圖所示,我們透過數值實驗驗證了我們的理論結果。同時,在兩層ReLU網路+ SGD之外,我們也把我們的結論擴展到了更一般的設定上,包括其他種類的激活函數、具有自適應步長的優化器等,結果如圖3(d )所示,顯示特徵污染在更一般的設定上也普遍存在。
同時,我們也提供了更多的實驗證據和特徵可視化表明在我們日常使用的ResNet、Vision transformer等深度網絡中,特徵污染現象同樣會出現,並且能夠解釋我們實驗中觀測到的OOD泛化gap。對這部分內容有興趣的大家可以參考我們原論文的第5章。
總結與討論
最後,我們列舉一些未來可能比較重要/可以繼續深入做下去的研究點,也歡迎感興趣的大家和我們進一步交流:
作者簡介 | 本文作者章天任,清華大學自動化系博士研究生,本科畢業於清華大學自動化系,指導教授為陳峰教授。作者在博士期間主要圍繞表徵學習和機器學習中的泛化問題展開理論和演算法研究,已有多篇文章發表在機器學習頂會和頂刊,例如 ICML、NeurIPS、ICLR、IEEE TPAMI 等。
作者單位 | 清華大學VIPLAB
聯絡郵箱 | zhangtr22@mails.tsinghua.edu.cn
參考文獻 ., Bethge, M., and Brendel, W. Does CLIP's generalization performance mainly stem from high train-test similarity? In International Conference on Learning Representations, 2024.
以上是ICML 2024 | 特徵污染:神經網路會學習不相關特徵而泛化失敗的詳細內容。更多資訊請關注PHP中文網其他相關文章!