模組化的機器學習系統就夠了嗎？ Bengio師生告訴你答案-人工智慧-PHP中文網

深度學習研究者從神經科學和認知科學中汲取靈感，從隱藏單元、輸入方式，到網路連結、網路架構的設計等，許多突破性研究都基於模仿大腦運行策略。毫無疑問，近年來在人工網路中，模組化和注意力經常被組合使用，並取得了令人印象深刻的結果。

事實上，認知神經科學研究表明，大腦皮層以模組化的方式表示知識，不同模組之間進行通信，注意力機制進行內容選擇，這也就是上述提到的模組化和注意力組合使用。在近期的研究中，有人提出，大腦中的這種溝通方式可能對深度網路中的歸納偏壓有意義。這些高階變數之間依賴關係的稀疏性，將知識分解為盡可能獨立的可重組片段，使得學習更有效率。

儘管最近的許多研究都依賴這樣的模組化體系架構，但研究者使用了大量的技巧以及體系架構修改，這使得解析真正的、可用的體系架構原則變得具有挑戰性。

機器學習系統正逐漸顯露出更稀疏、更模組化架構的優勢，模組化架構不僅具有良好的泛化性能，而且還能帶來更好的分佈外(OoD) 泛化、可擴展性、學習速度和可解釋性。此類系統成功的一個關鍵是，用於真實世界設置的資料生成系統被認為是由稀疏交互部分組成，賦予模型類似的歸納偏移將是有幫助的。然而，由於這些真實世界的數據分佈是複雜和未知的，該領域一直缺乏對這些系統進行嚴格的定量評估。

由來自加拿大蒙特婁大學的Sarthak Mittal、Yoshua Bengio、 Guillaume Lajoie 三位研究者撰寫的論文，他們透過簡單且已知的模組化資料分佈，對常見的模組化架構進行了全面評估。該研究強調了模組化和稀疏性的好處，並揭示了在優化模組化系統時面臨挑戰的見解。一作及通訊作者 Sarthak Mittal 為 Bengio 和 Lajoie 的碩士生。

模組化的機器學習系統就夠了嗎？ Bengio師生告訴你答案

論文網址：https://arxiv.org/pdf/2206.02713.pdf
#GitHub 網址：https://github.com/sarthmit/Mod_Arch

#具體而言，該研究擴展了Rosenbaum 等人的分析，並提出了一種方法來評估、量化和分析模組化架構的常見組成部分。為此，該研究開發了一系列基準和指標，旨在探索模組化網路的效能。這揭示了有價值的見解，不僅有助於識別當前方法的成功之處，還有助於識別這些方法何時以及如何失敗的方法。

本研究的貢獻可總結為：

此研究基於機率選擇規則來開發基準任務和指標，並以基準和指標來量化模組化系統中的兩個重要現象：崩潰（collapse）和專業化（specialization）。
本研究提煉出常用的模組化歸納偏置，並透過一系列模型進行系統地評估，這些模型旨在提取常用的架構屬性（Monolithic, Modular, Modular-op、GT-Modular 模型）。
該研究發現，當一個任務中有很多潛在規則時，模組化系統中的專業化可以顯著提高模型效能，但如果只有很少的規則，則不會如此。
該研究發現，標準的模組化系統在專注於正確資訊的能力和專業化能力方面往往都不是最優的，這表明需要額外的歸納偏移。

定義 / 術語

#本文中，研究者探討了一系列模組化系統如何執行常見的任務，這些任務由我們稱為規則資料的合成資料生成過程所製定。他們介紹了關鍵組成部分的定義，包括（1）規則以及這些規則如何形成任務，（2）模組以及這些模組如何採用不同的模型架構，（3）專業化以及如何評估模型。詳細設定如下圖 1 所示。

模組化的機器學習系統就夠了嗎？ Bengio師生告訴你答案

規則。為了正確理解模組化系統並分析它們的優缺點，研究者考慮採用的綜合設置允許對不同的任務要求進行細粒度的控制。尤其是必須在如下公式 1-3 中所示的資料產生分佈上學習操作，他們稱之為規則。

模組化的機器學習系統就夠了嗎？ Bengio師生告訴你答案

給定上述分佈，研究者定義了一個成為其專家的規則，也即規則r 被定義為p_y(·|x, c = r) ，其中c 是表示上下文的分類變量，x 是輸入序列。

任務。任務是由公式 1-3 中展示的一組規則（資料生成分佈）來描述。不同的{p_y(· | x, c)}_c 集合意味著不同的任務。其中對於給定數量的規則，研究者在多個任務上訓練模型以消除任何對特定任務的偏見。

模組。模組化系統由一組神經網路模組組成，其中每個模組都對整體輸出做出貢獻。透過如下函數形式可以看出這一點。

模組化的機器學習系統就夠了嗎？ Bengio師生告訴你答案

其中 y_m 表示輸出，p_m 表示 m^th 模組的啟動。

模型架構。模型架構描述了為模組化系統的每個模組或單晶片系統的單一模組選擇什麼架構。在本文中，研究者考慮採用了多層感知機（MLP）、多頭注意力（MHA）和循環神經網路（RNN）。重要的是，規則（或資料產生分佈）進行調整以適用於模型架構，例如基於 MLP 的規則。

資料產生過程

由於研究者的目標是透過合成資料來探討模組化系統，因此他們詳細介紹了基於上文所描述的規則方案的資料產生過程。具體地，研究者使用了簡單的混合專家（MoE）風格的資料產生過程，希望不同的模組可以專門針對規則中的不同專家。

他們解釋了適用於三種模型架構的資料產生過程，它們分別是 MLP、MHA 和 RNN。此外，每個任務下面都有兩個版本：迴歸和分類。

MLP。研究者定義了適用於基於模組化 MLP 系統的學習的資料方案。在這個合成資料產生方案中，一個資料樣本包含兩個獨立的數字以及從一些分佈中取樣的規則選擇。不同的規則產生兩個數字的不同線性組合以給出輸出，也即線性組合的選擇是根據規則進行動態實例化，如下公式 4-6 所示。

模組化的機器學習系統就夠了嗎？ Bengio師生告訴你答案

MHA。現在，研究者定義了針對模組化 MHA 系統的學習而調整的資料方案。因此，他們設計了具有以下屬性的資料生成分佈，即每個規則分別由不同的搜尋、檢索概念以及檢索資訊的最終線性組合組成。研究者在如下公式 7-11 中用數學方法描述了這個過程。

模組化的機器學習系統就夠了嗎？ Bengio師生告訴你答案

RNN。對於循環系統，研究者定義了一種線性動態系統的規則，其中可以在任何時間點觸發多個規則中的一個。在數學上，此過程中如下公式 12-15 所示。

模組化的機器學習系統就夠了嗎？ Bengio師生告訴你答案

模型

以往一些工作宣稱端對端訓練的模組系統優於單體系統，尤其是在分散式環境中。但是，對於這些模組化系統的好處以及它們是否真的根據數據生成分佈進行專業化處理還沒有詳細和深度的分析。

因此，研究者考慮了四個類別允許不同程度專業化的模型，它們分別是 Monolithic（單體）、Modular（模組化）、Modular-op 和GT-Modular 。下表 1 展示了這些模型。

模組化的機器學習系統就夠了嗎？ Bengio師生告訴你答案

Monolithic。單體系統是一個大型神經網絡，它以整體資料 (x, c) 作為輸入，並依此做出預測 y^。系統中顯式 baked 的模組化或稀疏性沒有出現歸納偏置，並完全取決於反向傳播來學習解決任務所需的任何函數形式。

Modular。模組化系統由許多模組組成，每個模組都是給定架構類型（MLP、MHA 或 RNN）的神經網路。每個模組 m 將資料 (x, c) 作為輸入，併計算輸出 yˆ_m 和置信度分數，跨模組歸一化為激活機率 p_m。

Modular-op。模組化作業系統與模組化系統非常相似，只有一點不同。研究者沒有將模組 m 的激活機率 p_m 定為 (x, c) 的函數，而是確保激活僅由規則上下文 C 決定。

GT-Modular。真值模組化系統作為 oracle 基準，即完美專業化的模組化系統。

研究者表明，從 Monolithic 到 GT-Modular，模型越來越多地包含模組化和稀疏性的歸納偏移。

度量

為了可靠地評估模組化系統，研究者提出了一系列度量，不僅可以衡量此類系統的效能優勢，還能透過崩潰和專業化這兩種重要的形式來評估。

效能。第一組評估度量是基於分佈內和分佈外（OoD）設定中的效能，反映了不同模型在各種任務上的表現。對於分類設置，研究者報告了分類誤差；對於回歸設置，研究者報告了損失。

崩潰。研究者提出了一組度量 Collapse-Avg 和 Collapse-Worst，以此量化模組化系統遭遇到的崩潰量（也即模組未充分利用的程度）。下圖 2 展示了一個範例，可以看到模組 3 未被使用。

專業化。為了對崩潰度量做出補充，研究者還提出了以下一組度量，即（1）對齊，（2）適應和（3）量化模組化系統獲得的專業化程度的逆互資訊。

實驗

下圖表明，GT-Modular 系統在大多數情況下都最優（左）的，這表明專業化是有益的。我們也看到，在標準端到端訓練的模組化系統和 Monolithic 系統之間，前者的表現優於後者但差距不大。這兩個餅圖共同表明，目前的端到端訓練的模組化系統沒有實現良好的專業化，因此在很大程度上是次優的。

模組化的機器學習系統就夠了嗎？ Bengio師生告訴你答案

然後，該研究查看特定架構選擇，並分析它們在越來越多的規則中的性能和趨勢。

模組化的機器學習系統就夠了嗎？ Bengio師生告訴你答案

Figure 4 shows that while a perfectly specialized system (GT-Modular) would bring benefits, a typical modular system for end-to-end training is sub-optimal and cannot achieve these benefits, especially as the number of rules increases increase. Furthermore, while such end-to-end modular systems often outperform monolithic systems, the advantage is usually only small.

模組化的機器學習系統就夠了嗎？ Bengio師生告訴你答案

In Figure 7 we also see the average of the training modes for the different models on all other settings, The average includes classification error and regression loss. As can be seen, good specialization not only leads to better performance, but also speeds up training.

模組化的機器學習系統就夠了嗎？ Bengio師生告訴你答案

The following figure shows two collapse metrics: Collapse-Avg and Collapse-Worst. In addition, the figure below also shows three specialization indicators for different models with different number of rules, alignment, adaptation and inverse mutual information:

模組化的機器學習系統就夠了嗎？ Bengio師生告訴你答案 ##

以上是模組化的機器學習系統就夠了嗎？ Bengio師生告訴你答案的詳細內容。更多資訊請關注PHP中文網其他相關文章！