LLM | Yuan 2.0-M32：注意力路由的專家混合模型-人工智慧-PHP中文網

LLM | Yuan 2.0-M32：带注意力路由的专家混合模型圖片

一、結論寫在前面

Yuan+2.0-M32是一種基礎架構，與Yuan-2.0+2B相似，採用了一個包含32位專家的專家混合架構。其中2位專家處於活躍狀態。提出並採用了一個包含32位專家的專家混合架構，以更有效率地選擇專家，相比採用經典路由網路的模型，其準確率提升了3.8%。 Yuan+2.0-M32從零開始訓練，使用了2000B的token，其訓練消耗僅為同等參數規模密集集合模型的9.25%。為了更好地選擇專家，引入了注意力路由器，該路由器具有快速感知的能力，從而能更好地選擇專家。

Yuan 2.0-M32在編碼、數學及多個專業領域展現了競爭力的能力，僅使用了400億總參數中的37億活躍參數，以及每token7.4 GFlops的前向計算，這兩項指標皆僅Llama3-70B的1/19。 Yuan 2.0-M32在MATH和ARC-Challenge基準測試中超越了Llama3-70B，準確率分別達到55.89%和95.8%。 Yuan 2.0-M32的模型及原始碼已在GitHub：https://github.com/IEIT-Yuan/Yuan2.0-M32。

二、論文的簡單介紹

#2.1 論文的背景

在每一個token在固定計算量的情況下，採用專家混合（MoE）結構的模型可以透過增加專家數量輕鬆建構得比密集集模型更大規模，從而實現更高的準確性表現。實際上，在有限的運算資源下訓練模型，MoE被視為減少與模型、資料集規模和有限運算能力相關的成本的卓越選擇方案。

MoE（Mixture of Experts）的概念可追溯至1991年。總損失是每個專家加權損失的組合，這些專家具有獨立判決的能力。稀疏門控MoE的概念最初由Shazeer等人（2017年）在翻譯模型中提出。採用這種路由策略，提理時只有極少數專家被激活，而非所有專家同時被調用。這種稀疏性使得模型在計算效率損失極小的情況下，堆疊的LSTM層之間擴展了1000倍。雜訊可調的Top-K閘控路由由網路向softmax函數引入可調雜訊並維持K值，以平衡專家利用率。近年來，隨著模型規模的不斷擴大，路由策略在高效分配運算資源方面受到了更多關注。

專家路由網路是MoE結構的核心。該結構透過計算token分配給每個專家的機率來選擇參與計算的候選專家。目前，在大多數流行的MoE結構中，普遍採用經典路由演算法，該演算法執行token與每個專家特徵向量之間的點積，並選擇具有最大點積的專家作為獲勝者。在這個選擇中，專家的特徵向量是獨立的，忽略了專家之間的相關性。然而，MoE結構通常每次不只選擇一個專家，並且不同專家之間的特徵可能存在相關性。因此，在這種情況下，選擇的特徵向量對於每個參與計算的專家之間的點積可能存在重疊和衝突，進而影響結果的準確性。但是，MoE結構通常每次選擇不只一個專家，並且不同專家之間的特徵可能存在相關性，因此在這種情況下，經典路由演算法選擇的特徵向量可能會存在重疊和衝突，影響計算準確性。為了解決這個問題，MoE結構經常採用獨立的專家特徵向量，這意味著每個專家被視為完全獨立，而忽略了專家之間的相關性。然而，這種做法可能會導致一些問題。因此，在選擇專家時，MoE結構通常不只選擇一個專家，不同專家之間的特徵可能存在相關性。在這種情況下，選擇的特徵向量對於每個參與計算的專家之間的點積可能存在重疊和衝突，進而影響結果的準確性。因此，MoE結構需要更準確的路由演算法來選擇最佳的專家，並且在選擇時需要考

2.2 論文的方法

2.2.1模型架構

基於Yuan 2.0-2B的模型結構，Yuan 2.0引入了基於局部濾波的注意力（LFA）以考慮輸入token的局部依賴性，從而提高模型的準確性。在Yuan 2.0-M32中，每一層的密集前饋網路（FFN）被替換為MoE組件。

圖1展示了論文模型中應用的MoE層的架構。以四個FFN為例（實際上有32個專家），每個MoE層由一個獨立的FFN作為專家組成。由於專家的路徑網路將輸入的token分派給相關的專家，經典的路徑網路為每個專家建立了一個特徵向量。並計算輸入的token與每個專家特徵向量之間的點積，以獲得token與每個專家之間的相似度。具有最高相似度的專家將用於計算輸出。最強的相似度的專家被選中激活，並參與後續計算。

LLM | Yuan 2.0-M32：带注意力路由的专家混合模型圖片

圖1：Yuan 2.0-M32的說明。左側圖展示了Yuan 2.0架構中MoE層的擴展。 MoE層取代了Yuan 2.0中的前饋層。右側圖展示了MoE層的結構。在論文的模型中，每個輸入token將被分配給總共32個專家中的2個，而在圖中論文以4個專家為例進行展示。 MoE的輸出是所選專家的加權和。 N表示層的數目每個專家的特徵向量彼此獨立，計算機率時忽略了專家之間的相關性。實際上，在大多數MoE模型中，通常會選擇兩個或更多的專家參與後續計算，自然帶來了專家間的強相關性。考慮專家間的相關性無疑有助於提高準確性。
LLM | Yuan 2.0-M32：带注意力路由的专家混合模型

圖2(b)展示了本工作提出的注意力路由器的架構，該新穎的路由網路透過採用注意力機制來整合專家間的相關性。建構了一個表示專家間相關性的係數矩陣，並應用於最終機率值的計算。

表1：不同路由結構的比較

表1列出了不同路由器的準確度結果。論文的模型在8個可訓練專家上測試了注意力路由器。經典路由器模型有8個可訓練專家，以確保相似的參數規模，且路由結構與應用於Mixtral 8*7B的結構相同，即一個線性層上的Softmax。共享專家路由器採用共享專家隔離策略與經典路由架構。有兩個固定專家捕捉通用知識，以及14個可選專家中前兩名作為專業專家。 LLM | Yuan 2.0-M32：带注意力路由的专家混合模型

MoE的輸出是固定專家和路由器選出的專家的組合。所有三個模型都使用30Btoken進行訓練，並使用另外10Btoken進行測試。考慮到經典路由器和共享專家路由器之間的結果，論文發現後者在訓練時間增加了7.35%的情況下獲得了完全相同的測試損失。共享專家的運算效率相對較低，並沒有帶來比經典MOE策略更好的訓練準確性。因此，在論文的模型中，論文採用了不帶任何共享專家的經典路由策略。與經典路由網路相比，注意力路由器的測試損失提高了3.8%。

論文透過增加專家數量並固定每個專家的參數大小來測試模型的可擴展性。訓練專家數量的增加僅改變模型容量，而不改變實際活化的模型參數。所有模型均使用500億個token進行訓練，並使用另外的100億個token進行測試。論文將啟動的專家設定為2，三個模型的訓練超參數相同。專家擴展效果是透過訓練500億個token後的測試損失來衡量（表2）。與8個可訓練專家的模型相比，具有16個專家的模型顯示出2%的損失降低，而具有32個專家的模型顯示出3.6%的損失降低。考慮到其準確性，論文為Yuan 2.0-M32選擇了32個專家。

表2：擴展實驗結果

#2.2.2 模型訓練 LLM | Yuan 2.0-M32：带注意力路由的专家混合模型

Yuan 2.0-M32透過資料並行和管線並行的組合進行訓練，但不使用張量並行或優化器並行。圖3展示了損失曲線，最終訓練損失為1.22。

圖3：Yuan2.0-M32在2000Btoken上的預訓練損失

LLM | Yuan 2.0-M32：带注意力路由的专家混合模型

2.2.3 微調

在微調過程中，論文將序列長度擴展至16384。遵循CodeLLama（Roziere et al.，2023）的工作，論文重置旋轉位置嵌入（RoPE）的基頻值，以避免隨著序列長度增加，注意力分數的衰減。論文沒有簡單地將基值從1000增加到一個非常大的值（例如1000000），而是使用NTK感知（bloc97，2023）來計算新的基值。