大型語言模型(LLMS)出色,但它們的軟磁性注意機制呈現了計算瓶頸。本文探討了實現線性時間複雜性的替代方案。
SoftMax將相似性得分轉換為概率,類似於K-Nearest鄰居。
> Katharopoulos等人提出的線性注意力
巧妙地重寫了SoftMax指數為內核函數,從而實現了線性計算。 轉換如下所示:
elu(x) 1
>
當N>>> D,LLMS中的常見情況。 經常性的視圖是:
> softmax的不可分割性阻止了這種線性化。 在解碼過程中,僅S(N-1)需要跟踪,導致每個令牌o(d²)。但是,固定尺寸的S(n-1)限制了上下文保留。
>
存在各種門控函數(G),每個函數都會導致不同的模型:>門控函數的依賴性僅對當前令牌允許有效的並行處理。
狀態空間模型(SSM)提供不同的視角,以處理CNNS過程圖像等序列。 該模型是一個離散的線性時間不變系統:
這與卷積有關:
> H3使用兩種互補的SSM層:
>
使用帶有輸出門控和卷積的選擇性SSM:
結論
> Katharopoulos等。 (2020)
,,> fu等。 (2022),gu&dao(2023),
以上是線性關注的詳細內容。更多資訊請關注PHP中文網其他相關文章!