首頁 > 科技週邊 > 人工智慧 > 線性關注

線性關注

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB
發布: 2025-02-25 19:10:11
原創
109 人瀏覽過

大型語言模型(LLMS)出色,但它們的軟磁性注意機制呈現了計算瓶頸。本文探討了實現線性時間複雜性的替代方案。

注意基礎Linearizing Attention

>假設熟悉諸如Chatgpt和Transformers之類的LLM,我們專注於這些模型的核心。與將過去狀態壓縮到隱藏的向量的RNN不同,注意力選擇性地檢索了每個新查詢的相關過去數據。 變壓器使用鍵(k),查詢(q)和值(v)嵌入。 注意機制與查詢與取回值的鍵相匹配:

Linearizing Attention SoftMax將相似性得分轉換為概率,類似於K-Nearest鄰居。

單個注意力層的計算成本為:

Linearizing Attention

softmax的二次復雜性(O(n²))對於長序列(n>> 100k)而變得過於敏銳。

>

線性注意:解決方案?

> Katharopoulos等人提出的線性注意力

巧妙地重寫了SoftMax指數為內核函數,從而實現了線性計算。 轉換如下所示:

Linearizing Attentionelu(x) 1>

函數近似於指數。計算成本變為:

當N>>> D,LLMS中的常見情況。 經常性的視圖是:Linearizing Attention

> softmax的不可分割性阻止了這種線性化。 在解碼過程中,僅SLinearizing Attention(N-1)需要跟踪,導致每個令牌o(d²)。但是,固定尺寸的S(n-1)限制了上下文保留。 封閉線性注意:戰略記憶

通過選擇性保留信息來解決內存限制,

封閉式線性注意力。 關鍵更改是在S_N的配方中:

存在

>

存在各種門控函數(G),每個函數都會導致不同的模型:>

Linearizing Attention>門控函數的依賴性僅對當前令牌允許有效的並行處理。

狀態空間模型:卷積方法

狀態空間模型(SSM)提供不同的視角,以處理CNNS過程圖像等序列。 該模型是一個離散的線性時間不變系統:Linearizing Attention

Linearizing Attention這與卷積有關:

Linearizing Attention> H3使用兩種互補的SSM層:>

Linearizing Attention

選擇性狀態空間模型:數據依賴性動力學

SSMS的固定參數限制了適應性。選擇性SSM通過使系統依賴於數據來解決此問題:

Mamba

>

使用帶有輸出門控和卷積的選擇性SSM:

Linearizing Attention

Linearizing Attention結論

>本文追踪了有效序列建模的演變,突出了計算效率和內存能力之間的權衡。 SoftMax的二次復雜性與線性注意力的效率形成鮮明對比,但後者的記憶有限導致封閉式的線性注意力和SSM。 朝著數據依賴性模型(封閉線性注意力和選擇性SSM)的進展強調了自適應信息保留的重要性。 引用的論文中提出了進一步的閱讀。

>

參考:

> Katharopoulos等。 (2020)

Yang等。 (2023)

> fu等。 (2022)gu&dao(2023) Waleffe等。 (2024)。 (注意:簡短省略了全文,但在原始輸入中可用。 確認:(確認部分保持不變。)>

以上是線性關注的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板