預訓練無需注意力,擴展到4096個token不成問題,與BERT相當
Transformer 作為 NLP 預訓練模型架構,能夠有效的在大型未標記的資料上進行學習,研究已經證明,Transformer 是自 BERT 以來 NLP 任務的核心架構。
最近的工作表明,狀態空間模型(SSM)是長範圍序列建模有利的競爭架構。 SSM 在語音生成和 Long Range Arena 基準上取得了 SOTA 成果,甚至優於 Transformer 架構。除了提高準確率之外,基於 SSM 的 routing 層也不會隨著序列長度的增長而呈現二次複雜性。
本文中,來自康乃爾大學、 DeepMind 等機構的研究者提出了雙向門控SSM (BiGS),用於無需注意力的預訓練,其主要是將SSM routing 與基於乘法門控(multiplicative gating)的架構結合。研究發現 SSM 本身在 NLP 的預訓練中表現不佳,但整合到乘法門控架構後,下游準確率便會提高。
實驗表明,在受控設定下對相同資料進行訓練,BiGS 能夠與 BERT 模型的效能相符。透過在更長的實例上進行額外預訓練,在將輸入序列擴展到 4096 時,模型還能保持線性時間。分析表明,乘法門控是必要的,它修復了 SSM 模型在變長文字輸入上的一些特定問題。
論文網址:https://arxiv.org/pdf/2212.10544.pdf
#方法介紹
SSM 透過以下微分方程式將連續輸入u (t) 與輸出y (t) 連結起來:
對於離散序列,SSM 參數被離散化,其過程可以近似為:
這個方程可以解釋為一個線性RNN,其中x_k 是一個隱藏狀態。 y 也可以用卷積計算:
#Gu 等人展示了一種在神經網路中使用SSM 的有效方法,他們開發了參數化A 的方法,稱為HiPPO,其產生了一個穩定而有效率的架構,稱為S4。這保留了 SSM 對長期序列建模的能力,同時比 RNN 訓練更有效。最近,研究人員提出了 S4 的簡化對角化版本,它透過對原始參數更簡單的近似實現了類似的結果。在高層次上,基於 SSM 的 routing 為神經網路中的序列建模提供了一種替代方法,而無需二次計算的注意力成本。
預訓練模型架構
#SSM 能取代預訓練中的注意力嗎?為了回答這個問題,研究考慮了兩種不同的架構,如圖 1 所示的堆疊架構(STACK)和乘法門控架構(GATED)。
具有自註意力的堆疊架構相當於 BERT /transformer 模型,門控架構是門控單元的雙向改編,最近也被用於單向 SSM。帶有乘法門控的 2 個序列區塊(即前向和後向 SSM)夾在前饋層中。為了進行公平比較,門控架構的大小保持與堆疊架構相當。
圖 1:模型變數。 STACK 是標準 transformer 架構,GATED 為基於閘控單元。對於 Routing 組件(虛線),研究同時考慮雙向 SSM(如圖所示)和標準自註意力。閘控(X)表示逐元素乘法。
實驗結果
預訓練
#表 1 顯示了 GLUE 基準測試中不同預訓練模型的主要結果。 BiGS 在 token 擴展上複製了 BERT 的準確率。這一結果表明,在這樣的計算預算下,SSM 可以複製預訓練 transformer 模型的準確率。這些結果明顯優於其他基於非注意力的預訓練模型。想要達到這個準確率,乘法門控是必要的。在沒有門控的情況下,堆疊 SSM 的結果明顯更差。為了檢查這種優勢是否主要來自於門控的使用,本文使用 GATE 架構訓練了一個基於注意力的模型;然而,結果顯示模型的效果實際上低於 BERT。
表 1:GLUE 結果。 (Top)在控制設定下,不同架構和 routing 的比較。請參閱圖 2 以了解詳細資訊。 (Bottom) 報告了基於 CNN、LSTM 和 FNet 的其他非注意力預訓練模型的可比較結果。
Long-Form 任務
#表2 結果顯示,可以將SSM 與Longformer EncoderDecoder (LED) 和BART 進行比較,但是,結果顯示它在遠端任務中表現得也不錯,甚至更勝一籌。與其他兩種方法相比,SSM 的預訓練資料少得多。即使 SSM 不需要在這些長度上進行近似,長格式也依舊很重要。
表 2:SCROLLS Encoder 測試結果。基準模型都是編碼器 —— 解碼器模型,一個基於 Longformer (LED),另一個基於 BART。輸入的長度有截斷。
更多內容請查看原始論文。
以上是預訓練無需注意力,擴展到4096個token不成問題,與BERT相當的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

什麼?瘋狂動物城被國產AI搬進現實了?與影片一同曝光的,是一款名為「可靈」全新國產影片生成大模型。 Sora利用了相似的技術路線,結合多項自研技術創新,生產的影片不僅運動幅度大且合理,還能模擬物理世界特性,具備強大的概念組合能力與想像。數據上看,可靈支持生成長達2分鐘的30fps的超長視頻,分辨率高達1080p,且支援多種寬高比。另外再劃個重點,可靈不是實驗室放出的Demo或影片結果演示,而是短影片領域頭部玩家快手推出的產品級應用。而且主打一個務實,不開空頭支票、發布即上線,可靈大模型已在快影
