PRO | 為什麼基於 MoE 的大模型更值得關注？-人工智慧-PHP中文網

2023年，幾乎 AI 的每個領域都在以前所未有的速度進化，同時，AI也在不斷地推動著具身智慧、自動駕駛等關鍵賽道的技術邊界。在多模態趨勢下，Transformer 作為 AI 大模型主流架構的局面是否會撼動？為何探索基於 MoE （專家混合）架構的大模型成為業界新趨勢？大型視覺模型（LVM）能否成為通用視覺的新突破？ ……我們從過去的半年發布的2023年本站PRO會員通訊中，挑選了10 份針對以上領域技術趨勢、產業變革進行深入剖析的專題解讀，助您在新的一年裡為大展宏圖做好準備。這篇解讀來自2023年 Week50 業內通訊 ?

PRO | 为什么基于 MoE 的大模型更值得关注？

專題解讀 為什麼基於 MoE 的大模型更值得關注？

日期：12 月12 日

事件：Mistral AI 開源了基於MoE（Mixture-of-Experts，專家混合）架構的模型Mixtral 8x7B，其效能達到Llama 2 70B 和GPT -3.5 的水平"的事件進行延展解讀。

首先，弄清楚MoE 是什麼及其來龍去脈

1、概念：

MoEEEEEEEE （Mixture of Experts）是一種混合模型，由多個子模型（即專家）組成，每個子模型都是局部模型，專門處理輸入空間的子集。決定每個資料應該被哪個模型去訓練，從而減輕不同類型樣本之間的干擾。門控模型組成稀疏門控制的深度學習技術。 🎜>

① 在門控網路的訓練中，每個樣本都會被分配到一個或多個專家中；

② 在專家網路的訓練中，每個專家都會被訓練以最小化其分配給它的樣本的誤差。整合學習是透過訓練練多個模型（基學習器）未解決相同問題，並且將它們的預測結果簡單組合（例如投票或平均）。整合學習的主要目標是透過減少過度擬合，提高泛化能力，以提高預測效能。常見的整合學習方法包括 Bagging，Boosting 和 Stacking。

4、MoE 歷史來源：

① MoE 的根源可以追溯到 1991 年的論文《 Adaptive Mixture of Local Experts》。這個想法與整合方法類似，目的是為由不同子網路組成的系統提供一種監督過程，每個單獨的網路或專家都專門處理輸入空間的不同區域。透過門控網路確定每個專家的權重。在訓練過程中，專家和門控都會被訓練。

② 在2010 年至2015 年期間，兩個不同的研究領域對MoE 的進一步發展做出了貢獻：

一是專家作為組件：在傳統的MoE 設定中，整個系統包括一個門控網路和多個專家。 MoEs 作為整個模型已經在支援向量機、高斯過程和其他方法中進行了探索。《Learning Factored Representations in a Deep Mixture of Experts》工作探討了 MoEs 作為更深層網路元件的可能性。這使得模型可以同時變得龐大和高效。

另一個是條件計算：傳統的網路透過每一層處理所有輸入資料。在這個時期，Yoshua Bengio 研究了根據輸入 token 動態啟動或停用元件的方法。

③ 由此，人們開始在自然語言處理的脈絡下探索專家混合模型。在論文《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》中透過引入稀疏性，將其擴展到了一個 137B LSTM，從而實現了高規模下的快速推理。

為什麼基於 MoE 的大模型值得關注？

1、通常來講，模型規模的擴展會導致訓練成本顯著增加，計算資源的限製成為了大規模密集模型訓練的瓶頸。為了解決這個問題，基於稀疏 MoE 層的深度學習模型架構被提出。

2、稀疏混合專家模型（MoE）是一種特殊的神經網路架構，可以在不增加推理成本的情況下，為大型語言模型（LLM）增加可學習的參數，而指令調優（instruction tuning）則是一種訓練LLM 遵循指令的技術。

3、MoE+指令微調技術的結合，可大幅提升語言模型的效能。 2023 年7 月，Google、UC 柏克萊和MIT 等機構的研究者發表了論文《Mixture-of-Experts Meets Instruction Tuning: A Winning Combination for Large Language Models》，證明了混合專家模型（MoE）與指令調優的結合能夠讓大型語言模型（LLM）的效能大幅提升。

① 具體來說，研究者在一組經過指令微調的稀疏混合專家模型FLAN-MOE 中，使用稀疏激活MoE，並用MoE 層替換Transformer 層的前饋組件，以提供更優的模型容量與運算彈性；其次，在FLAN 集合資料集的基礎上對FLAN-MOE 進行微調。

② 研究者基於上述方法研究在沒有指令調優的情況下在單一下游任務進行直接微調，在指令調優後對下游任務進行in-context 少樣本或零樣本泛化，以及在指令調優後對單一下游任務進行進一步微調等三種實驗設定下LLM 的效能差異。

③ 實驗結果表明，如果不使用指令調優，MoE 模型的性能通常不如與之計算能能力相當的密集模型。但當結合指令調優時，情況發生了變化。指令調優後的 MoE 模型（Flan-MoE）在多個任務上的表現超越了更大的密集模型，即使 MoE 模型的計算成本只是密集模型的三分之一。與密集模型相比。 MoE 模型從指令調優所獲得的效能提升更為顯著，因此當考慮計算效率與效能時，MoE 將成為大型語言模型訓練的有力工具。

4、此次，發布的 Mixtral 8x7B 模型同樣採用了稀疏混合專家網路。

① Mixtral 8x7B 是 decoder-only 的模型。前饋模組從 8 組不同的參數中進行選擇。在每一層網路中，對於每個 token，路由器網路選擇 8 組中的兩組（專家），來處理 token 並將其輸出累積組合。

② Mixtral 8x7B 模型在大多數基準測試中均匹配或優於 Llama 2 70B 以及 GPT3.5，推理速度快了 6 倍。

MoE 的重要優勢：稀疏性是什麼？

1、在傳統的密集模型中，對於每一個輸入都需要在完整的模型中進行計算。在稀疏混合專家模型中，處理輸入資料時只有少數專家模型被激活成者使用，而大部分專家模型處於未被激活狀態，這種狀態便是「稀疏」。而稀疏性是混合專家模型的重要優點，也是提升模型訓練和推理過程的效率的關鍵。

以上是PRO | 為什麼基於 MoE 的大模型更值得關注？的詳細內容。更多資訊請關注PHP中文網其他相關文章！