任務通用！清華提出主幹網路Flowformer，實現線性複雜度

五大任務上取得優秀效果。

「守恆」

3.2 Flow-Attention" >3.2 Flow-Attention

4. 實驗

5. 分析

6. 總結

首頁

科技週邊

人工智慧

任務通用！清華提出主幹網路Flowformer，實現線性複雜度｜ICML2022

王林

Apr 16, 2023 pm 07:25 PM

網路模型清華

任務通用是基礎模型研究的核心目標之一，同時也是深度學習研究通往高階智慧的必經之路。近年來，由於注意力機制的通用關鍵建模能力，Transformer在許多領域中表現優異，逐漸呈現通用架構的趨勢。但是隨著序列長度的增長，標準注意力機制的計算呈現二次複雜度，嚴重阻礙了其在長序列建模與大模型中的應用。

為此，來自清華大學軟體學院的團隊深入探索了這個關鍵問題，提出了任務通用的線性複雜度主幹網路Flowformer，在保持標準Transformer的通用性的同時，將其複雜度降至線性，論文被ICML 2022接受。

任務通用！清華提出主幹網路Flowformer，實現線性複雜度｜ICML2022

作者表：吳海旭，吳佳龍，徐介暉，王建民，龍明盛

##連結：https://arxiv.org/pdf/2202.06258.pdf

程式碼：https://github.com/thuml/ Flowformer
相較於標準Transformer，本文提出的Flowformer模型，具有下列特點：
##線性複雜度，可以處理數千長度的輸入序列；沒有引入新的歸納偏好

任務通用，在

長序列、視覺、自然語言、時間序列、強化學習

五大任務上取得優秀效果。

1. 問題分析

標準的注意力機制輸入包含queries（），keys（）和values（）三部分，，其計算方式如下：其中為注意力權重矩陣，最終計算結果為將進行加權融合所得，上述過程計算複雜度為。注意到，對於多項矩陣的連乘問題，在經典演算法中已有較多研究。特別地，對於注意力機制，我們可以利用矩陣乘法的結合律來實現最佳化，如，即可將原本的二次複雜度降至線性。但是注意力機制中的函數使得無法直接應用結合律。因此，如何移除注意力機制中的函數是實現線性複雜度的關鍵。但是，近期的眾多工作證明，函數在避免平凡注意力學習上起到了關鍵性作用。綜上，我們期待一種模型設計方案，實現以下目標：（1）移除函數；（2）避免平凡注意力；（3）維持模型的通用性。

2. 動機針對目標（1），在先前的工作中，往往使用核方法來取代函數，即透過近似注意力計算（為非線性函數），但直接去掉會造成平凡注意力。為此，針對目標（2），先前工作不得不引入一些歸納偏好，這限制了模型的通用性

，因此不滿足目標（3），例如cosFormer中的局部性假設等。

Softmax中的競爭機制為滿足上述目標，我們從的基本性質出發進行分析。我們注意到，最初被提出是用於：將「贏者全拿」的取極大值操作擴展為可微分形式。因此，得益於其內在的「競爭」機制，它可以使各個token之間的注意力權重差異化，從而避免了平凡的注意力的問題。 基於上述考慮，我們試圖將競爭機制引入註意力機制設計，從而避免核方法分解帶來平凡注意力問題。網路流中的競爭機制

我們關注在圖論中的經典網路流（Flow network）模型中，

「守恆」

（Conservation）是一個重要現象，即每個節點的流入量等於流出量。受到

「固定資源情況下，必定引起競爭」的啟發，在本文中，我們試圖從網絡流視角重新分析經典注意力機制中的信息流動，並透過守恆性質將競爭引入註意力機制設計，以避免平凡注意力問題。 3. Flowformer3.1 網路流視角下的注意力機制

######在註意力機制內部：資訊流可以表示為：從# ##來源###（source，對應）基於學習到的###流容量###（flow capacity，對應注意力權重）匯聚至###匯###（sink，對應）。 ######

任務通用！清華提出主幹網路Flowformer，實現線性複雜度｜ICML2022

在註意力機制外部，來源（v）的資訊來自上一層網絡，匯（R）的資訊也將提供給下面的前饋層。

任務通用！清華提出主幹網路Flowformer，實現線性複雜度｜ICML2022

3.2 Flow-Attention

基於上述觀察，我們可以透過分別從流入和流出兩個角度，控制注意力機制與外部網路的交互，來實現「固定資源」，從而分別引起源和匯內部的競爭，以避免平凡注意力。不失一般性，我們將注意力機制與外部網路的交互資訊量設定為預設值1.

任務通用！清華提出主幹網路Flowformer，實現線性複雜度｜ICML2022

（1）匯（R）的流入守恆：

不難取得，未經過守恆之前，對於第個匯，其流入的資訊量為：任務通用！清華提出主幹網路Flowformer，實現線性複雜度｜ICML2022 。為了固定每個匯流入的資訊量為單位1，我們將作為歸一化引入資訊流（注意力權重）的計算。經過歸一化之後，第個彙的流入資訊量為：

#此時，由於彙的流入守恆，各個源（V）之間存在天然的競爭關係，我們計算此時每個源（V）給出的資訊量，即可得到：競爭情況下，每個源所提供的資訊量，這也代表著每個源的重要性。

任務通用！清華提出主幹網路Flowformer，實現線性複雜度｜ICML2022

（2）源（V）的流出守恆：與前述過程類似，未經守恆之前，對於第個源，其流出的資訊量為：任務通用！清華提出主幹網路Flowformer，實現線性複雜度｜ICML2022 。為了固定每個源流出的資訊量為單位1，我們將作為歸一化引入資訊流（注意力權重）的計算。經過歸一化之後，第j個源的流出資訊量為：。此時，由於源的流出守恆，各個匯（）之間存在天然的競爭關係，我們計算此時每個匯（）接受的資訊量，即可得到：競爭情況下，每個結果所需要最終所接受的資訊量。

（3）整體設計

#基於上述結果，我們設計如下Flow-Attention機制，具體包含競爭（Competition）、聚合（Aggregation）、分配（Allocation）三部分：其中Competition將競爭機制引入中，突出重要的資訊；Aggregation基於矩陣結合律實現線性複雜度；Allocation透過將競爭機制引入，控制傳遞到下一層的資訊量。上述過程中的所有操作均為線性複雜度。同時，Flow-Attention的設計僅依賴網路流中的守恆原理，對資訊流的重新整合，因此並沒有引入新的歸納偏好，保證了模型的通用性。將標準Transformer中的二次複雜度Attention替換為Flow-Attention，即得到了Flowformer。

4. 實驗

本文在標準資料集上進行了廣泛的實驗：

涵蓋了長序列、視覺、自然語言、時間序列、強化學習五大任務；
檢視了標準（Normal）和自回歸任務（Causal）兩種注意力機制類型。
涵蓋了多種序列長度的輸入情況（20-4000）。
比較了各領域經典模型、主流深度模型、Transformer及其變體等多種基準方法。

任務通用！清華提出主幹網路Flowformer，實現線性複雜度｜ICML2022

如下表所示，Flowformer在五大任務上皆表現優秀，驗證了模型的通用性。詳細實驗結果請見論文。

任務通用！清華提出主幹網路Flowformer，實現線性複雜度｜ICML2022

5. 分析

為了進一步說明Flowformer的工作原理，我們對ImageNet分類任務中的注意力（對應Flow-Attention中的）進行了可視化實驗，從中可以發現：

如果僅使用核方法進行分解，如Linear Transformer，會造成模型注意力分散，無法有效捕捉關鍵區域；
經典Transformer和Flowformer均可以準確捕捉到影像的關鍵位置，但是後者在計算複雜度上具有優勢；
cosFormer在註意力機制中引入一維局部性假設，在語言任務上效果突出。但在影像（將2D資料展開成1D序列）中，如果不將局部性假設擴展至二維，則無法適配視覺任務。這也印證了Flowformer中「沒有引進新的歸納偏好」設計方式的優勢。

任務通用！清華提出主幹網路Flowformer，實現線性複雜度｜ICML2022

上述視覺化表明，透過Flow-Attention將競爭引入註意力機制設計可以有效避免平凡注意力。更多可視化實驗可見論文。

6. 總結

本文提出的Flowformer透過將網路流中的守恆原理引入設計，自然地將競爭機制引入註意力運算中，有效避免了平凡注意力問題，在實現線性複雜度的同時，保持了標準Transformer的通用性。 Flowformer在長序列、視覺、自然語言、時間序列、強化學習五大任務上取得優秀效果。此外，Flowformer中「無特殊歸納偏好」的設計理念也對通用基礎架構的研究具有一定的啟發性。在未來工作中，我們將進一步探索Flowformer在大規模預訓練上的潛力。

以上是任務通用！清華提出主幹網路Flowformer，實現線性複雜度｜ICML2022的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

AI Hentai Generator

免費產生 AI 無盡。

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

gmail信箱登陸入口在哪裡

7493

CakePHP 教程

1377

steam的賬戶名稱是什麼格式

win11激活密鑰永久

NYT連接提示和答案

Related knowledge

全球最強開源 MoE 模型來了，中文能力比肩 GPT-4，價格僅 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想像一下，一個人工智慧模型，不僅擁有超越傳統運算的能力，還能以更低的成本實現更有效率的效能。這不是科幻，DeepSeek-V2[1]，全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合（MoE）語言模型，具有訓練經濟、推理高效的特點。它由236B個參數組成，其中21B個參數用於啟動每個標記。與DeepSeek67B相比，DeepSeek-V2效能更強，同時節省了42.5%的訓練成本，減少了93.3%的KV緩存，最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI顛覆數學研究！菲爾茲獎得主、華裔數學家領銜11篇頂刊論文｜陶哲軒轉贊 Apr 09, 2024 am 11:52 AM

AI，的確正在改變數學。最近，一直十分關注這個議題的陶哲軒，轉發了最近一期的《美國數學學會通報》（BulletinoftheAmericanMathematicalSociety）。圍繞著「機器會改變數學嗎？」這個話題，許多數學家發表了自己的觀點，全程火花四射，內容硬核，精彩紛呈。作者陣容強大，包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化，要知道，其中許多文章是在一年前提交的，而在這一

網路連不上wifi怎麼回事 Apr 03, 2024 pm 12:11 PM

1.檢查wifi密碼：確保自己輸入的wifi密碼是正確的，並注意區分大小寫。 2.確認wifi是否正常運作：檢查wifi路由器是否正常運作，可將其他裝置連接至相同路由器，以確定問題是否出在裝置上。 3.重新啟動設備和路由器：有時候，設備或路由器發生故障或網路問題，重新啟動設備和路由器可能會解決問題。 4.檢查設備設定：確保設備無線功能為開啟狀態，且未將wifi功能停用。

你好，電動Atlas！波士頓動力機器人復活，180度詭異動作嚇到馬斯克 Apr 18, 2024 pm 07:58 PM

波士頓動力Atlas，正式進入電動機器人時代！昨天，液壓Atlas剛「含淚」退出歷史舞台，今天波士頓動力就宣布：電動Atlas上崗。看來，在商用人形機器人領域，波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後，短短十幾小時內，就已經有一百多萬觀看。舊人離去，新角色登場，這是歷史的必然。毫無疑問，今年是人形機器人的爆發年。網友銳評：機器人的進步，讓今年看起來像人類的開幕式動作、自由度遠超人類，但這真不是恐怖片？影片一開始，Atlas平靜地躺在地上，看起來應該是仰面朝天。接下來，讓人驚掉下巴

替代MLP的KAN，被開源專案擴展到卷積了 Jun 01, 2024 pm 10:03 PM

本月初，來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如，作者表示，他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說，DeepMind的MLP有大約300,000個參數，而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎，MLP基於通用逼近定理，而KAN基於Kolmogorov-Arnold表示定理。如下圖所示，KAN在邊上具

Google狂喜：JAX性能超越Pytorch、TensorFlow！或成GPU推理訓練最快選擇 Apr 01, 2024 pm 07:46 PM

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow，7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中，Pytorch依然比Tensorflow更受歡迎。但未來，也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近，Keras團隊為三個後端（TensorFlow、JAX、PyTorch）與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先，他們為生成式和非生成式人工智慧任務選擇了一組主流

特斯拉機器人進廠打工，馬斯克：手的自由度今年將達到22個！ May 06, 2024 pm 04:13 PM

特斯拉機器人Optimus最新影片出爐，已經可以在工廠裡打工了。正常速度下，它分揀電池（特斯拉的4680電池）是這樣的：官方還放出了20倍速下的樣子——在小小的「工位」上，揀啊揀啊揀：這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作，是完全自主的，全程沒有人為的干預。而且在Optimus的視角之下，它還可以把放歪了的電池重新撿起來放置，主打一個自動糾錯：對於Optimus的手，英偉達科學家JimFan給出了高度的評價：Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

FisheyeDetNet：首個以魚眼相機為基礎的目標偵測演算法 Apr 26, 2024 am 11:37 AM

目標偵測在自動駕駛系統當中是一個比較成熟的問題，其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而，利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大，標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述，我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示，並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型，並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

See all articles

任務通用！清華提出主幹網路Flowformer，實現線性複雜度｜ICML2022

五大任務上取得優秀效果。

「守恆」

3.2 Flow-Attention

4. 實驗

5. 分析

6. 總結

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題