AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文作者皆來自北京航空航天大學人工智慧學院和複雜關鍵軟體環境全國重點實驗室黃雷副教授團隊。一作倪雲昊為研一學生,二作郭宇芯為大三學生,三作賈俊龍為研二學生,通訊作者為黃雷副教授(首頁:https://huangleibuaa.github.io/)
神經網絡通常由三部分組成:線性層、非線性層(激活函數)和標準化層。線性層是網路參數的主要存在位置,非線性層提升神經網路的表達能力,而標準化層(Normalization)主要用於穩定和加速神經網路訓練,很少有工作研究它們的表達能力,例如,以Batch Normalization為例,它在預測階段可以認為是線性變換,從表達上並未引入非線性。因此研究者普遍認為Normalization並不能夠提升模型的表達能力。 然而,最近由北京航空航天大學人工智慧學院黃雷老師團隊發表在ICML2024上的論文《On the Nonlinearity of Layer Normalization》指出,層標準化(Layer Normlization,LN)以及其計算退化版本RMSNorm具有非線性表達能力,並詳細討論了LN的萬能近似分類能力。
- 論文地址:https://arxiv.org/abs/2406.01255
並且提出了僅含線性層和LN的簡單神經網路LN-Net,在足夠深的情況下,理論上,可以任意分類給定的樣本和樣本類別。這項發現打破了人們將各種Normalization視為不具有擬合能力的線性變換的慣性認知,而非線性層和標準化層也不再是互不相交的神經網路模組。
目前,隨著transformer的廣泛使用,LN作為其中的固定組成部分,已經成為了一種普遍使用的技術,該研究在未來可能為神經網路架構提供新的理論依據,在這個方向上,具有開創性意義。
對於非線性研究,文章並沒有直接討論LN本身的分析性質,而是更具有實用意義地了LN與數據之間的交互。
作者首先提出了統計量SSR(Sum of Squares Ratio),描述兩個類別下樣本的線性可分性。當樣本進行線性變換時,SSR也會改變。因此,定義樣本在所有線性變換下對應的最小的SSR為LSSR。文章指出,當LSSR越小時,樣本間的線性可分性越強。
然而,當對樣本施加的線性變化替換為「線性變換-LN-線性變換」的結構時,發現得到的新的SSR有可能低於LSSR,這驗證了LN的非線性表達— —如果LN是線性的,那麼「線性變換-LN-線性變換」也是線性的,所得到的新SSR不可能會低於LSSR。
為了進一步研究,作者將LN拆分為兩個步驟:中心化(centering)和尺度縮放(scaling)。中心化從數學上是一個線性變換,因此LN的非線性主要存在於尺度縮放操作當中(文章中也稱為球面投影,是RMSNorm執行的操作)。作者以最簡單的線性不可分的異或資料為例,透過線性變換和球面投影將這四個點進行了正確分類。
🎜更一般地,作者提出了使用LN和線性層對任意數目樣本進行正確分類的演算法,探討了LN-Net的萬能近似能力。 透過構造演算法步驟,將神經網路的逐層變換轉換為同類樣本合併問題,將萬能近似分類問題轉換為例歸併問題,並指出--對於任意標籤的m個樣本,都可以建構一個O(m)層的LN-Net,對這m個樣本進行正確分類。此構造方法為計算神經網路的VC維也提供了新的思路。作者指出,在此基礎上,可以推論出有L個層標準化層的LN-Net,VC維度至少有L+2。 作者在證明了LN非線性的基礎上,為進一步加強LN的非線性以便於實際應用,提出了分組層(LN-G)。作者在數學上從海森矩陣的角度預測分組能強化LN的非線性,並從實驗上初步探測了LN-G的表現能力。 作者指出,在CIFAR-10隨機標籤資料集上,對於通常的線性層模型,其準確率不超過20%;而使用線性層和LN-G構成的神經網路(不引入傳統的激活函數作為非線性單元)能夠取得55.85%的準確率。 作者進一步探討了LN-G在無活化函數的捲積神經網路的分類效果,並實驗上證明了這種沒有活化函數的神經網路的確有著強大的擬合能力。此外,作者類比MLP上GN作用於整個樣本上(將單一樣本拉伸成一維向量,再進行GN),提出了LN-G-Position。在沒有非線性層的ResNet網路上使用LN-G-Position方法在CIFAR-10資料集上能夠取得86.66%的準確率,體現了LN-G-Position強大的表達能力。 作者接下來在Transformer上進行了實驗探究,將原本的LN替換為LN-G,根據實驗結果發現了分組層標準化能有效性提升Transformer網絡的性能,證明了真實網絡中,該理論的可行性。 作者在《On the Nonlinearity of Layer Normalization》論文中,理論上首次證明了僅含有線性層和LN的模型的萬能分類能力以及給定深度的模型的VC維下界,這裡面最重要的意義是將傳統深度神經網絡的表達能力的分析朝廣泛使用的現代真實網絡邁出了一大步,這一點可能為未來的神經網絡結構設計提供新的思路。 以上是神經網路可能不再需要激活函數? Layer Normalization也具有非線性表現!的詳細內容。更多資訊請關注PHP中文網其他相關文章!