重新審視Transformer:倒置更有效,真實世界預測的新SOTA出現了
在時間序列預測中,Transformer已經展現了強大的能力,可以用來描述依賴關係和提取多層次表示。然而,一些研究人員對基於Transformer的預測器的有效性提出了質疑。這種預測器通常將相同時間戳記的多個變數嵌入到不可區分的通道中,並關注這些時間標記,以捕捉時間依賴性。研究人員發現,考慮數字關係而非語義關係的簡單線性層在性能和效率上都超過了複雜的Transformer。同時,確保變數的獨立性和利用互資訊的重要性越來越受到最新研究的關注。這些研究明確建立了多變量相關性模型,以實現精確的預測。然而,在不顛覆常見的Transformer架構的情況下,實現這一目標仍然具有一定的難度
在考慮到基於Transformer的預測器引起的爭議時,研究人員們正在思考為什麼Transformer在時間序列預測方面的表現甚至不如線性模型,而在許多其他領域卻佔據主導地位
近日,來自清華大學的一篇新論文提出了一個不同的視角-Transformer 的效能不是固有的,而是由於將架構不當地應用於時間序列資料所造成的。
論文的連結是:https://arxiv.org/pdf/2310.06625.pdf
基於Transformer的預測器的現有結構可能不適合多變量時間序列預測。圖2左側顯示,同一時間步長的點代表不同的物理意義,但測量結果不一致,這些點被嵌入到一個令牌中,多變量相關性被忽略。此外,在現實世界中,由於多變量時間點的局部感受野和時間戳不對齊,單一時間步鮮有有益資訊的標記。另外,儘管序列變化受到序列順序的重大影響,但時間維度上的變體注意力機制並未被充分採用。因此,Transformer在捕捉基本序列表示和描述多元相關性方面的能力受到削弱,限制了其在不同時間序列資料上的能力和泛化能力
關於將每個時間步的多變量點嵌入一個(時間)token 的不合理性,研究者從時間序列的反向視角出發,將每個變量的整個時間序列獨立嵌入一個(變量)token,這是擴大局部感受野的patching 的極端情況。透過倒置,嵌入的 token 聚集了序列的全局表徵,可以更加以變數為中心,更好地利用注意力機制進行多變量關聯。同時,前饋網路可以熟練地學習任意回溯序列編碼的不同變數的泛化表徵,並解碼以預測未來序列。
研究者指出,對於時間序列預測來說,Transformer並非無效,而是其使用方式不當。在這篇論文中,研究者對Transformer的結構進行了重新審視,並推崇將iTransformer作為時間序列預測的基礎支柱。他們將每個時間序列嵌入為變數token,並採用多變量相關性關注機制,利用前饋網路進行序列編碼。實驗結果表明,所提出的iTransformer在實際預測基準圖1中達到了最先進水平,並出人意料地解決了基於Transformer的預測器所面臨的問題
總結來說,本文的貢獻有以下三點:
- 研究者對Transformer 的架構進行了反思,發現原生Transformer 元件在時間序列上的能力尚未充分開發。
- 本文提出的iTransformer 將獨立時間序列視為token,透過自註意力捕捉多變量相關性,並利用層歸一化和前饋網路模組學習更好的序列全域表示法,用於時間序列預測。
- 透過實驗,iTransformer 在真實世界的預測基準上達到了 SOTA。研究者分析了反轉模組和架構選擇,為未來改進基於 Transformer 的預測器指明了方向。
iTransformer
在多變量時間序列預測中,給定歷史觀測:
以T 個時間步長和N 個變量,研究者預測未來的S 個時間步長:。為方便起見,表示為
為時間步 t 同時記錄的多元變量,
為每個變數由 n 索引的整個時間序列。值得注意的是,在現實世界中,由於監視器的系統延遲和鬆散組織的資料集,
可能不包含本質上相同時間戳記的時間點。
的元素可以在物理測量和統計分佈中彼此不同,變數
通常共享這些資料。
本文所提出架構配備的Transformer 變體,稱為iTransformer,基本上沒有對Transformer 變體提出更具體的要求,只是注意力機制應適用於多元相關性建模。因此,一組有效的注意力機制可以作為插件,降低變數數量增加時關聯的複雜性。
iTransformer 在第四張圖中展示,採用了更簡單的Transformer編碼器架構,其中包含嵌入、投影和Transformer區塊
實驗及結果
研究人員對iTransformer在各種時間序列預測應用中進行了全面評估,證實了該框架的通用性,並進一步研究了針對特定時間序列維度反轉Transformer組件職責的效果
研究者在實驗中廣泛納入了6個真實世界資料集,包括ETT、天氣、電力、交通數據集、太陽能數據集以及PEMS數據集。詳細的資料集資訊請參考原文
重寫的內容是:預測結果
如表1 所示,用紅色表示最優,底線表示最優。 MSE/MAE 越低,重寫的內容是:預測結果越準確。本文所提出的 iTransformer 實現了 SOTA 效能。原生 Transformer 元件可以勝任時間建模和多元關聯,所提出的倒排架構可以有效解決現實世界的時間序列預測場景。
需要改寫的內容為:iTransformer 的普適性
將此框架應用於Transformer及其變體來評估iTransformers的研究者發現,這些變體通常解決了self-attention機制的二次複雜性問題,包括Reformer、Informer、Flowformer和FlashAttention。研究者也發現,簡單的倒置視角可以提高基於Transformer的預測器的性能,提高效率、泛化未見變量,並更好地利用歷史觀測數據
##表2對Transformers 和相應的iTransformers 進行了評估。值得注意的是,該框架持續改進了各種 Transformer。整體而言,Transformer 平均提升了 38.9%,Reformer 平均提升了 36.1%,Informer 平均提升了 28.5%,Flowformer 平均提升了 16.8%,Flashformer 平均提升了 32.2%。
還有一個因素是,iTransformer 可以廣泛應用於基於Transformer 的預測器,因為它在變數維度上採用了注意力機制的倒置結構,引入了具有線性複雜性的高效注意力,從根本上解決了由於6 個變數而引起的效率問題。這個問題在現實世界的應用中很常見,但對於Channel Independent 來說可能會消耗資源
#為了驗證假設,研究者將iTransformer與另一種泛化策略進行了比較:Channel Independent 強制採用一個共享Transformer 來學習所有變體的模式。如圖 5 所示, Channel Independent(CI-Transformers)的泛化誤差可能會大幅增加,而 iTransformer 預測誤差的增幅則小得多。
由於注意力和前饋網路的職責是倒置的,圖6 中評估了隨著回視長度的增加,Transformers 和iTransformer的性能。它驗證了在時間維度上利用 MLP 的合理性,即 Transformers 可以從延長的回視視窗中獲益,從而獲得更精確的預測。
模型分析
#為了驗證Transformer 元件的合理性,研究者進行了詳細的消融實驗,包括替換組件(Replace)和移除組件(w/o)實驗。表 3 列出了實驗結果。
更多詳細內容,請參考原文。
以上是重新審視Transformer:倒置更有效,真實世界預測的新SOTA出現了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

配置Debian郵件服務器的防火牆是確保服務器安全性的重要步驟。以下是幾種常用的防火牆配置方法,包括iptables和firewalld的使用。使用iptables配置防火牆安裝iptables(如果尚未安裝):sudoapt-getupdatesudoapt-getinstalliptables查看當前iptables規則:sudoiptables-L配置

Debian系統中的readdir函數是用於讀取目錄內容的系統調用,常用於C語言編程。本文將介紹如何將readdir與其他工具集成,以增強其功能。方法一:C語言程序與管道結合首先,編寫一個C程序調用readdir函數並輸出結果:#include#include#includeintmain(intargc,char*argv[]){DIR*dir;structdirent*entry;if(argc!=2){

在Debian系統中,readdir函數用於讀取目錄內容,但其返回的順序並非預先定義的。要對目錄中的文件進行排序,需要先讀取所有文件,再利用qsort函數進行排序。以下代碼演示瞭如何在Debian系統中使用readdir和qsort對目錄文件進行排序:#include#include#include#include//自定義比較函數,用於qsortintcompare(constvoid*a,constvoid*b){returnstrcmp(*(

在Debian系統上使用OpenSSL進行數字簽名驗證,可以按照以下步驟操作:準備工作安裝OpenSSL:確保你的Debian系統已經安裝了OpenSSL。如果沒有安裝,可以使用以下命令進行安裝:sudoaptupdatesudoaptinstallopenssl獲取公鑰:數字簽名驗證需要使用簽名者的公鑰。通常,公鑰會以文件的形式提供,例如public_key.pe

在Debian郵件服務器上安裝SSL證書的步驟如下:1.安裝OpenSSL工具包首先,確保你的系統上已經安裝了OpenSSL工具包。如果沒有安裝,可以使用以下命令進行安裝:sudoapt-getupdatesudoapt-getinstallopenssl2.生成私鑰和證書請求接下來,使用OpenSSL生成一個2048位的RSA私鑰和一個證書請求(CSR):openss

CentOS 關機命令為 shutdown,語法為 shutdown [選項] 時間 [信息]。選項包括:-h 立即停止系統;-P 關機後關電源;-r 重新啟動;-t 等待時間。時間可指定為立即 (now)、分鐘數 ( minutes) 或特定時間 (hh:mm)。可添加信息在系統消息中顯示。

在Debian系統中,OpenSSL是一個重要的庫,用於加密、解密和證書管理。為了防止中間人攻擊(MITM),可以採取以下措施:使用HTTPS:確保所有網絡請求使用HTTPS協議,而不是HTTP。 HTTPS使用TLS(傳輸層安全協議)加密通信數據,確保數據在傳輸過程中不會被竊取或篡改。驗證服務器證書:在客戶端手動驗證服務器證書,確保其可信。可以通過URLSession的委託方法來手動驗證服務器

在Debian上管理Hadoop日誌,可以遵循以下步驟和最佳實踐:日誌聚合啟用日誌聚合:在yarn-site.xml文件中設置yarn.log-aggregation-enable為true,以啟用日誌聚合功能。配置日誌保留策略:設置yarn.log-aggregation.retain-seconds來定義日誌的保留時間,例如保留172800秒(2天)。指定日誌存儲路徑:通過yarn.n
