任務通用!清華提出主幹網路Flowformer,實現線性複雜度|ICML2022
任務通用是基礎模型研究的核心目標之一,同時也是深度學習研究通往高階智慧的必經之路。近年來,由於注意力機制的通用關鍵建模能力,Transformer在許多領域中表現優異,逐漸呈現通用架構的趨勢。但是隨著序列長度的增長,標準注意力機制的計算呈現二次複雜度,嚴重阻礙了其在長序列建模與大模型中的應用。
為此,來自清華大學軟體學院的團隊深入探索了這個關鍵問題,提出了任務通用的線性複雜度主幹網路Flowformer,在保持標準Transformer的通用性的同時,將其複雜度降至線性,論文被ICML 2022接受。
作者表:吳海旭,吳佳龍,徐介暉,王建民,龍明盛
##連結:https://arxiv.org/pdf/2202.06258.pdf
- 程式碼:https://github.com/thuml/ Flowformer
- 相較於標準Transformer,本文提出的Flowformer模型,具有下列特點:
- ##線性複雜度,可以處理數千長度的輸入序列;沒有引入新的歸納偏好 ,維持了原有註意力機制的通用建模能力;
任務通用,在
長序列、視覺、自然語言、時間序列、強化學習五大任務上取得優秀效果。
1. 問題分析
標準的注意力機制輸入包含queries(),keys()和values()三部分,,其計算方式如下:其中為注意力權重矩陣,最終計算結果為將進行加權融合所得,上述過程計算複雜度為。注意到,對於多項矩陣的連乘問題,在經典演算法中已有較多研究。特別地,對於注意力機制,我們可以利用矩陣乘法的結合律來實現最佳化,如,即可將原本的二次複雜度降至線性。但是注意力機制中的函數使得無法直接應用結合律。因此,如何移除注意力機制中的函數是實現線性複雜度的關鍵。但是,近期的眾多工作證明,函數在避免平凡注意力學習上起到了關鍵性作用。綜上,我們期待一種模型設計方案,實現以下目標:(1)移除函數;(2)避免平凡注意力;(3)維持模型的通用性。2. 動機針對目標(1),在先前的工作中,往往使用核方法來取代函數,即透過近似注意力計算(為非線性函數),但直接去掉會造成平凡注意力。為此,針對目標(2),先前工作不得不引入一些歸納偏好,這限制了模型的通用性
,因此不滿足目標(3),例如cosFormer中的局部性假設等。Softmax中的競爭機制為滿足上述目標,我們從的基本性質出發進行分析。我們注意到,最初被提出是用於:將「贏者全拿」的取極大值操作擴展為可微分形式。因此,得益於其內在的「競爭」機制,它可以使各個token之間的注意力權重差異化,從而避免了平凡的注意力的問題。 基於上述考慮,我們試圖將競爭機制引入註意力機制設計,從而避免核方法分解帶來平凡注意力問題。 網路流中的競爭機制
我們關注在圖論中的經典網路流(Flow network)模型中,「守恆」
(Conservation)是一個重要現象,即每個節點的流入量等於流出量。受到「固定資源情況下,必定引起競爭」的啟發,在本文中,我們試圖從網絡流視角重新分析經典注意力機制中的信息流動,並透過守恆性質將競爭引入註意力機制設計,以避免平凡注意力問題。 3. Flowformer3.1 網路流視角下的注意力機制
######在註意力機制內部:資訊流可以表示為:從# ##來源###(source,對應)基於學習到的###流容量###(flow capacity,對應注意力權重)匯聚至###匯###(sink,對應)。 ######在註意力機制外部,來源(v)的資訊來自上一層網絡,匯(R)的資訊也將提供給下面的前饋層。
3.2 Flow-Attention
基於上述觀察,我們可以透過分別從流入和流出兩個角度,控制注意力機制與外部網路的交互,來實現「固定資源」,從而分別引起源和匯內部的競爭,以避免平凡注意力。不失一般性,我們將注意力機制與外部網路的交互資訊量設定為預設值1.
(1)匯(R)的流入守恆:
不難取得,未經過守恆之前,對於第個匯,其流入的資訊量為: 。為了固定每個匯流入的資訊量為單位1,我們將
作為歸一化引入資訊流(注意力權重)的計算。經過歸一化之後,第個彙的流入資訊量為:
#此時,由於彙的流入守恆,各個源(V)之間存在天然的競爭關係,我們計算此時每個源(V)給出的資訊量,即可得到:競爭情況下,每個源所提供的資訊量,這也代表著每個源的重要性。
(2)源(V)的流出守恆:與前述過程類似,未經守恆之前,對於第個源,其流出的資訊量為:。為了固定每個源流出的資訊量為單位1,我們將作為歸一化引入資訊流(注意力權重)的計算。經過歸一化之後,第j個源的流出資訊量為:
。此時,由於源的流出守恆,各個匯()之間存在天然的競爭關係,我們計算此時每個匯()接受的資訊量,即可得到:競爭情況下,每個結果所需要最終所接受的資訊量。
(3)整體設計
#基於上述結果,我們設計如下Flow-Attention機制,具體包含競爭(Competition)、聚合(Aggregation)、分配(Allocation)三部分:其中Competition將競爭機制引入中,突出重要的資訊;Aggregation基於矩陣結合律實現線性複雜度;Allocation透過將競爭機制引入,控制傳遞到下一層的資訊量。上述過程中的所有操作均為線性複雜度。同時,Flow-Attention的設計僅依賴網路流中的守恆原理,對資訊流的重新整合,因此並沒有引入新的歸納偏好,保證了模型的通用性。將標準Transformer中的二次複雜度Attention替換為Flow-Attention,即得到了Flowformer。
4. 實驗
本文在標準資料集上進行了廣泛的實驗:
- 涵蓋了長序列、視覺、自然語言、時間序列、強化學習五大任務;
- 檢視了標準(Normal)和自回歸任務(Causal)兩種注意力機制類型。
- 涵蓋了多種序列長度的輸入情況(20-4000)。
- 比較了各領域經典模型、主流深度模型、Transformer及其變體等多種基準方法。
如下表所示,Flowformer在五大任務上皆表現優秀,驗證了模型的通用性。詳細實驗結果請見論文。
5. 分析
為了進一步說明Flowformer的工作原理,我們對ImageNet分類任務中的注意力(對應Flow-Attention中的)進行了可視化實驗,從中可以發現:
- 如果僅使用核方法進行分解,如Linear Transformer,會造成模型注意力分散,無法有效捕捉關鍵區域;
- 經典Transformer和Flowformer均可以準確捕捉到影像的關鍵位置,但是後者在計算複雜度上具有優勢;
- cosFormer在註意力機制中引入一維局部性假設,在語言任務上效果突出。但在影像(將2D資料展開成1D序列)中,如果不將局部性假設擴展至二維,則無法適配視覺任務。這也印證了Flowformer中「沒有引進新的歸納偏好」設計方式的優勢。
上述視覺化表明,透過Flow-Attention將競爭引入註意力機制設計可以有效避免平凡注意力。更多可視化實驗可見論文。
6. 總結
本文提出的Flowformer透過將網路流中的守恆原理引入設計,自然地將競爭機制引入註意力運算中,有效避免了平凡注意力問題,在實現線性複雜度的同時,保持了標準Transformer的通用性。 Flowformer在長序列、視覺、自然語言、時間序列、強化學習五大任務上取得優秀效果。此外,Flowformer中「無特殊歸納偏好」的設計理念也對通用基礎架構的研究具有一定的啟發性。在未來工作中,我們將進一步探索Flowformer在大規模預訓練上的潛力。
以上是任務通用!清華提出主幹網路Flowformer,實現線性複雜度|ICML2022的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

1.檢查wifi密碼:確保自己輸入的wifi密碼是正確的,並注意區分大小寫。 2.確認wifi是否正常運作:檢查wifi路由器是否正常運作,可將其他裝置連接至相同路由器,以確定問題是否出在裝置上。 3.重新啟動設備和路由器:有時候,設備或路由器發生故障或網路問題,重新啟動設備和路由器可能會解決問題。 4.檢查設備設定:確保設備無線功能為開啟狀態,且未將wifi功能停用。

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP
