僅需200M參數,零樣本性能超越有監督!谷歌發佈時序預測基礎模型TimesFM
时间序列预测在各个领域中起着重要作用,例如零售、金融、制造业、医疗保健和自然科学等。在零售行业中,通过提高需求预测的准确性,可以有效降低库存成本并增加收入。这意味着企业能够更好地满足客户需求,减少库存积压和损失,同时提高销售额和利润。因此,时间序列预测在零售领域中具有重要的价值,能够为企业带来实质
深度学习(DL)模型在“多变量时间序列预测”任务中占据主导地位,在各种比赛和实际应用中展现出色的性能。
与此同时,自然语言处理(NLP)任务中的大型基础语言模型也取得了显著进展,有效提升了翻译、检索增强生成、代码补全等任务的性能。
NLP模型的训练依赖于海量文本数据,其中数据来源多种多样,包括爬虫、开源代码等,训练后的模型能够识别语言中的模式,并具备零样本学习的能力:比如说把大模型用在检索任务时,模型可以回答有关当前事件的问题并对其进行总结。
尽管基于深度学习的预测器在许多方面优于传统方法,包括降低训练和推理成本,但仍然存在一些挑战需要克服:
许多深度学习模型要经过长时间的训练和验证才能在新的时间序列上进行测试。相比之下,时间序列预测的基础模型具备"开箱即用预测"功能,无需额外训练即可应用于未知时间序列数据。这种特性让用户能够专注于改进零售需求规划等实际下游任务的预测工作。
Google Research的研究人员最近提出了一个名为TimesFM的时序预测基础模型,在1000亿个真实世界时间点上进行了预训练。与目前最新的大型语言模型(LLMs)相比,TimesFM的规模要小得多,仅包含200M参数。
论文链接:https://arxiv.org/pdf/2310.10688.pdf
实验结果表明,尽管规模较小,TimesFM在各个领域和时间尺度上的不同未经训练的数据集中展现出了令人惊讶的「零样本性能」,接近于明确经过训练、最先进的监督方法在这些数据集上的表现。
研究人员计划今年晚些时候在Google Cloud Vertex AI中为外部客户提供TimesFM模型。
基础模型TimesFM
LLMs通常以仅解码器(decoder-only)的方式进行训练,包括三个步骤:
1. 文本被分解为称为token的子词(subwords)
2. tokens被馈送到堆叠的causal Transformer层,并生成与每个输入token对应的输出,需要注意的是,该层无法处理没输入的token,即future tokens
3. 对应于第i个token的输出总结了来自先前token的所有信息,并预测第(i 1)个token
在推理期间,LLM每次生成一个token的输出。
例如,当输入提示「法国的首都是哪里?」(What is the capital of France?)时,模型可能会生成token为「The」,然后以该提示为条件生成下一个token「首都」(captial)等,直到模型生成完整的答案:「法国的首都是巴黎」(The capital of France is Paris)。
時間序列預測的基礎模型應該適應可變的上下文(模型觀察到的內容)和範圍(查詢模型預測的內容)長度,同時具有足夠的能力來編碼來自大型預訓練資料集的所有模式(patterns)。
與LLMs類似,研究人員使用堆疊的Transformer層(自註意力和前饋層)作為TimesFM模型的主要構建塊;在時間序列預測的背景下,把一個patch(一組連續的時間點)作為一個token,思路來自最近的long-horizon forecasting工作:具體任務是預測在堆疊的Transformer層的末尾處,針對給定第i個輸出來預測第(i 1)個時間點patch
但TimesFM與語言模型有幾個關鍵的差異:
1. 模型需要一個具有殘差連接的多層感知器塊,將時間序列的patch轉換為token,其可以與位置編碼(PE)一起沿著輸入到Transformer層。為此,我們使用類似於我們以前在長期預測中的工作的殘差塊。
2. 來自堆疊的Transformer的輸出token可以用來預測比輸入patch長度更長的後續時間點的長度,即,輸出patch長度可以大於輸入patch長度。
假設,長度為512個時間點的時間序列被用來訓練具有「輸入patch長度32」和「輸出patch長度128」的TimesFM模型時:
在訓練期間,模型同時被訓練為使用前32個時間點來預測接下來的128個時間點,使用前64個時間點來預測時間點65至192,使用前96個時間點來預測時間點97至224等等。
假設輸入資料為長度為256的時間序列,且其任務是預測未來的接下來的256個時間點,模型首先產生時間點257至384的未來預測,然後以初始256長度輸入加上產生的輸出為條件來產生時間點385至512。
另一方面,如果在模型中,輸出patch長度等於輸入patch長度32,那麼對於相同的任務,模型經歷八次生成步驟而非2次,增加了錯誤累積的風險,因此在實驗結果中可以看到,更長的輸出patch長度會帶來更好的長期預測性能。
預先訓練資料
就像LLMs可以透過更多token變得更好一樣,TimesFM需要大量合法的時間序列資料來學習和改進;研究人員花了大量的時間來創建和評估訓練資料集,發現兩個比較好的方法:
#合成資料有助於基礎(Synthetic data helps with the basics)
可以使用統計模型或物理模擬產生有意義的合成時間序列數據,基本的時間模式可以引導模型學習時間序列預測的語法。
真實世界的資料增加了真實世界的感覺(Real-world data adds real-world flavor)
研究人員梳理了可用的公共時間序列資料集,並選擇性地將1000億個時間點的大型語料庫放在一起。
在資料集中,有Google趨勢和維基百科的頁面瀏覽量,追蹤使用者感興趣的內容,並且很好地反映了許多其他真實世界時間序列的趨勢和模式,有助於TimesFM理解更大的圖景,可以針對「訓練期間沒見過的、特定領域上下文」提升泛化表現。
零樣本評估結果
研究人員使用常用的時間序列基準,針對訓練期間未見過的資料對TimesFM進行零樣本評估,可以觀察到TimesFM的表現優於大多數統計方法,如ARIMA,ETS,並且可以匹配或優於強大的DL模型,如DeepAR,PatchTST,這些模型已經在目標時間序列上進行了明確的訓練。
研究人員使用Monash Forecasting Archive來評估TimesFM的開箱即用效能,該資料集包含來自各個領域的數萬個時間序列,如交通、天氣和需求預測,覆蓋頻率從幾分鐘到每年的數據。
根據現有文獻,研究人員檢查了適當縮放的平均絕對誤差(MAE),以便在資料集上取平均值。
可以看到,zero-shot(ZS)TimesFM比大多數監督方法都要好,包括最近的深度學習模型。也比較了TimesFM和GPT-3.5使用llmtime(ZS)提出的特定提示技術進行預測,結果證明了TimesFM的效能優於llmtime(ZS)
在Monash資料集上,TimesFM(ZS)與其他有監督和零樣本方法的比例MAE(越低越好)
大多數Monash資料集都是短期或中期的,也就是說預測長度不會太長;研究人員也測試了TimesFM對常用基準長期預測對最先進的基線PatchTST(和其他長期預測基線)。
研究人員繪製了ETT資料集上的MAE,用於預測未來96和192個時間點的任務,在每個資料集的最後一個測試視窗上計算指標。
TimesFM(ZS)的最後一個視窗MAE(越低越好)相對於ETT資料集上的llmtime(ZS)和長期預測基準
可以看到,TimesFM不僅超過了llmtime(ZS)的效能,而且與在對應資料集上明確訓練的監督PatchTST模型的效能相符。
結論
研究人員使用1000億真實的世界時間點的大型預訓練語料庫訓練了一個僅用於解碼器的基礎模型,其中大部分是來自Google趨勢的搜尋興趣時間序列資料和維基百科的頁面瀏覽量。
結果表明,即使是一個相對較小的200 M參數預訓練模型,使用TimesFM架構,在各種公共基準測試(不同的領域和粒度)中都展現出相當好的零樣本表現。
以上是僅需200M參數,零樣本性能超越有監督!谷歌發佈時序預測基礎模型TimesFM的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

什麼?瘋狂動物城被國產AI搬進現實了?與影片一同曝光的,是一款名為「可靈」全新國產影片生成大模型。 Sora利用了相似的技術路線,結合多項自研技術創新,生產的影片不僅運動幅度大且合理,還能模擬物理世界特性,具備強大的概念組合能力與想像。數據上看,可靈支持生成長達2分鐘的30fps的超長視頻,分辨率高達1080p,且支援多種寬高比。另外再劃個重點,可靈不是實驗室放出的Demo或影片結果演示,而是短影片領域頭部玩家快手推出的產品級應用。而且主打一個務實,不開空頭支票、發布即上線,可靈大模型已在快影
