線性化駱駝-人工智慧-PHP中文網

線性化駱駝

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

發布： 2025-02-25 18:38:08

原創

166 人瀏覽過

>本文探討了在Llama-3.2-1b語言模型中使用混合方法結合了軟馬克斯滑動窗口和線性注意力的混合方法，以替代軟瑪克斯自我發作。這旨在提高推理速度而不會出現明顯的準確性損失，從而降低了使用大型語言模型的成本。該項目基於“ LOLCAT：大型語言模型的低排名線性化”，“基於Mamba的語言模型的經驗研究”和“線性化注意”的研究。它重點是在預先訓練的美洲駝模型中替換50％的自我發項層。

該過程分為四個部分：>

本節詳細介紹了使用可學習的因素來平衡其貢獻的自定義注意塊，該定制注意力塊結合了滑動窗口和線性注意機制。滑動窗口方法將注意力限制在指定的窗口大小上，從而提高效率。線性注意，應用於較早的令牌，進一步優化了計算。

注意轉移：

此階段利用“ lolcats”方法。原始Llama注意塊的權重用於初始化混合塊。訓練涉及通過訓練輸入的前向通行證，計算原始塊和混合塊輸出之間的MSE損失，並對混合塊進行微調以模仿原始的行為。

> lora finetuning：

低級別適應性（lora）用於微調較大的美洲駝模型中的雜種注意塊。此步驟著重於訓練混合塊的參數，同時凍結其他參數，並使用Dolly-15K數據集優化文本生成模型。

評估：與原始Llama-3.2-1b模型評估混合模型的性能。基準測試側重於推理速度（令牌每秒和秒）和準確性（使用MMLU基準測試）。

>結果表明，混合模型提供了顯著的速度改進，尤其是對於更長的序列，同時保持了MMLU基準測試的可比精度。但是，該研究還強調了GPU硬件對速度和準確性測量的重大影響。建議進一步的研究以探索不同硬件對基準結果的影響。

Linearizing Llama

Linearizing Llama 結論強調了混合注意機製作為提高LLM推理速度的成本效益方法的潛力。該研究還指出，在評估模型性能時，需要進一步優化線性注意體系結構以及考慮硬件限制的重要性。該項目的代碼可在

linearizing-llama-3.2-1b>。

>許可參考：

[1] fineweb-edu：odc-by v1.0 [2] Dolly-15K：CC BY-SA 3.0 [3] MMLU：麻省理工學院許可

以上是線性化駱駝的詳細內容。更多資訊請關注PHP中文網其他相關文章！