仅需200M参数,零样本性能超越有监督!谷歌发布时序预测基础模型TimesFM
时间序列预测在各个领域中起着重要作用,例如零售、金融、制造业、医疗保健和自然科学等。在零售行业中,通过提高需求预测的准确性,可以有效降低库存成本并增加收入。这意味着企业能够更好地满足客户需求,减少库存积压和损失,同时提高销售额和利润。因此,时间序列预测在零售领域中具有重要的价值,能够为企业带来实质
深度学习(DL)模型在“多变量时间序列预测”任务中占据主导地位,在各种比赛和实际应用中展现出色的性能。
与此同时,自然语言处理(NLP)任务中的大型基础语言模型也取得了显着进展,有效提升了翻译、检索增强生成、代码补全等任务的性能。
NLP模型的训练依赖于海量文本数据,其中数据来源多种多样,包括爬虫、开源代码等,训练后的模型能够识别语言中的模式,并具备零样本学习的能力:比如说把大模型用在检索任务时,模型可以回答有关当前事件的问题并对其进行总结。
尽管基于深度学习的预测器在许多方面优于传统方法,包括降低训练和推理成本,但仍然存在一些挑战需要克服:
许多深度学习模型要经过长时间的训练和验证才能在新的时间序列上进行测试。相比之下,时间序列预测的基础模型具备"开箱即用预测"功能,无需额外训练即可应用于未知时间序列数据。这种特性让用户能够专注于改进零售需求规划等实际下游任务的预测工作。
Google Research的研究人员最近提出了一个名为TimesFM的时序预测基础模型,在1000亿个真实世界时间点上进行了预训练。与目前最新的大型语言模型(LLMs)相比,TimesFM的规模要小得多,仅包含200M参数。
论文链接:https://arxiv.org/pdf/2310.10688.pdf
实验结果表明,尽管规模较小,TimesFM在各个领域和时间尺度上的不同未经训练的数据集中展现出了令人惊讶的「零样本性能」,接近于明确经过训练、最先进的监督方法在这些数据集上的表现。
研究人员计划今年晚些时候在Google Cloud Vertex AI中为外部客户提供TimesFM模型。
基础模型TimesFM
LLMs通常以仅解码器(decoder-only)的方式进行训练,包括三个步骤:
1. 文本被分解为称为token的子词(subwords)
2. tokens被馈送到堆叠的causal Transformer层,并生成与每个输入token对应的输出,需要注意的是,该层无法处理没输入的token,即future tokens
3. 对应于第i个token的输出总结了来自先前token的所有信息,并预测第(i+1)个token
在推理期间,LLM每次生成一个token的输出。
例如,当输入提示「法国的首都是哪里?」(What is the capital of France?)时,模型可能会生成token为「The」,然后以该提示为条件生成下一个token「首都」(captial)等,直到模型生成完整的答案:「法国的首都是巴黎」(The capital of France is Paris)。
时间序列预测的基础模型应该适应可变的上下文(模型观察到的内容)和范围(查询模型预测的内容)长度,同时具有足够的能力来编码来自大型预训练数据集的所有模式(patterns)。
与LLMs类似,研究人员使用堆叠的Transformer层(自注意力和前馈层)作为TimesFM模型的主要构建块;在时间序列预测的背景下,把一个patch(一组连续的时间点)作为一个token,思路来源于最近的long-horizon forecasting工作:具体任务是预测在堆叠的Transformer层的末尾处,针对给定第i个输出来预测第(i+1)个时间点patch
但TimesFM与语言模型有几个关键的区别:
1. 模型需要一个具有残差连接的多层感知器块,将时间序列的patch转换为token,其可以与位置编码(PE)一起沿着输入到Transformer层。为此,我们使用类似于我们以前在长期预测中的工作的残差块。
2. 来自堆叠的Transformer的输出token可以用于预测比输入patch长度更长的后续时间点的长度,即,输出patch长度可以大于输入patch长度。
假设,长度为512个时间点的时间序列被用于训练具有「输入patch长度32」和「输出patch长度128」的TimesFM模型时:
在训练期间,模型同时被训练为使用前32个时间点来预测接下来的128个时间点,使用前64个时间点来预测时间点65至192,使用前96个时间点来预测时间点97至224等等。
假设输入数据为长度为256的时间序列,并且其任务是预测未来的接下来的256个时间点,模型首先生成时间点257至384的未来预测,然后以初始256长度输入加上生成的输出为条件来生成时间点385至512。
另一方面,如果在模型中,输出patch长度等于输入patch长度32,那么对于相同的任务,模型经历八次生成步骤而非2次,增加了错误累积的风险,因此在实验结果中可以看到,更长的输出patch长度会带来更好的长期预测性能。
预训练数据
就像LLMs可以通过更多token变得更好一样,TimesFM需要大量合法的时间序列数据来学习和改进;研究人员花了大量的时间来创建和评估训练数据集,发现两个比较好的方法:
合成数据有助于基础(Synthetic data helps with the basics)
可以使用统计模型或物理模拟生成有意义的合成时间序列数据,基本的时间模式可以引导模型学习时间序列预测的语法。
真实世界的数据增加了真实世界的感觉(Real-world data adds real-world flavor)
研究人员梳理了可用的公共时间序列数据集,并有选择地将1000亿个时间点的大型语料库放在一起。
在数据集中,有Google趋势和维基百科的页面浏览量,跟踪用户感兴趣的内容,并且很好地反映了许多其他真实世界时间序列的趋势和模式,有助于TimesFM理解更大的图景,可以针对「训练期间没见过的、特定领域上下文」提升泛化性能。
零样本评估结果
研究人员使用常用的时间序列基准,针对训练期间未见过的数据对TimesFM进行零样本评估,可以观察到TimesFM的性能优于大多数统计方法,如ARIMA,ETS,并且可以匹配或优于强大的DL模型,如DeepAR,PatchTST,这些模型已经在目标时间序列上进行了明确的训练。
研究人员使用Monash Forecasting Archive来评估TimesFM的开箱即用性能,该数据集包含来自各个领域的数万个时间序列,如交通、天气和需求预测,覆盖频率从几分钟到每年的数据。
根据现有文献,研究人员检查了适当缩放的平均绝对误差(MAE),以便在数据集上取平均值。
可以看到,zero-shot(ZS)TimesFM比大多数监督方法都要好,包括最近的深度学习模型。还对比了TimesFM和GPT-3.5使用llmtime(ZS)提出的特定提示技术进行预测,结果证明了TimesFM的性能优于llmtime(ZS)
在Monash数据集上,TimesFM(ZS)与其他有监督和零样本方法的比例MAE(越低越好)
大多数Monash数据集都是短期或中期的,也就是说预测长度不会太长;研究人员还测试了TimesFM对常用基准长期预测对最先进的基线PatchTST(和其他长期预测基线)。
研究人员绘制了ETT数据集上的MAE,用于预测未来96和192个时间点的任务,在每个数据集的最后一个测试窗口上计算指标。
TimesFM(ZS)的最后一个窗口MAE(越低越好)相对于ETT数据集上的llmtime(ZS)和长期预测基线
可以看到,TimesFM不仅超过了llmtime(ZS)的性能,而且与在相应数据集上显式训练的有监督PatchTST模型的性能相匹配。
结论
研究人员使用1000亿真实的世界时间点的大型预训练语料库训练了一个仅用于解码器的基础模型,其中大部分是来自Google趋势的搜索兴趣时间序列数据和维基百科的页面浏览量。
结果表明,即使是一个相对较小的200 M参数预训练模型,使用TimesFM架构,在各种公共基准测试(不同的领域和粒度)中都展现出相当好的零样本性能。
以上是仅需200M参数,零样本性能超越有监督!谷歌发布时序预测基础模型TimesFM的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

0.这篇文章干了啥?提出了DepthFM:一个多功能且快速的最先进的生成式单目深度估计模型。除了传统的深度估计任务外,DepthFM还展示了在深度修复等下游任务中的最先进能力。DepthFM效率高,可以在少数推理步骤内合成深度图。下面一起来阅读一下这项工作~1.论文信息标题:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

想象一下,一个人工智能模型,不仅拥有超越传统计算的能力,还能以更低的成本实现更高效的性能。这不是科幻,DeepSeek-V2[1],全球最强开源MoE模型来了。DeepSeek-V2是一个强大的专家混合(MoE)语言模型,具有训练经济、推理高效的特点。它由236B个参数组成,其中21B个参数用于激活每个标记。与DeepSeek67B相比,DeepSeek-V2性能更强,同时节省了42.5%的训练成本,减少了93.3%的KV缓存,最大生成吞吐量提高到5.76倍。DeepSeek是一家探索通用人工智

AI,的确正在改变数学。最近,一直十分关注这个议题的陶哲轩,转发了最近一期的《美国数学学会通报》(BulletinoftheAmericanMathematicalSociety)。围绕「机器会改变数学吗?」这个话题,众多数学家发表了自己的观点,全程火花四射,内容硬核,精彩纷呈。作者阵容强大,包括菲尔兹奖得主AkshayVenkatesh、华裔数学家郑乐隽、纽大计算机科学家ErnestDavis等多位业界知名学者。AI的世界已经发生了天翻地覆的变化,要知道,其中很多文章是在一年前提交的,而在这一

波士顿动力Atlas,正式进入电动机器人时代!昨天,液压Atlas刚刚「含泪」退出历史舞台,今天波士顿动力就宣布:电动Atlas上岗。看来,在商用人形机器人领域,波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后,短短十几小时内,就已经有一百多万观看。旧人离去,新角色登场,这是历史的必然。毫无疑问,今年是人形机器人的爆发年。网友锐评:机器人的进步,让今年看起来像人类的开幕式动作、自由度远超人类,但这真不是恐怖片?视频一开始,Atlas平静地躺在地上,看起来应该是仰面朝天。接下来,让人惊掉下巴

本月初,来自MIT等机构的研究者提出了一种非常有潜力的MLP替代方法——KAN。KAN在准确性和可解释性方面表现优于MLP。而且它能以非常少的参数量胜过以更大参数量运行的MLP。比如,作者表示,他们用KAN以更小的网络和更高的自动化程度重现了DeepMind的结果。具体来说,DeepMind的MLP有大约300,000个参数,而KAN只有约200个参数。KAN与MLP一样具有强大的数学基础,MLP基于通用逼近定理,而KAN基于Kolmogorov-Arnold表示定理。如下图所示,KAN在边上具

特斯拉机器人Optimus最新视频出炉,已经可以在厂子里打工了。正常速度下,它分拣电池(特斯拉的4680电池)是这样的:官方还放出了20倍速下的样子——在小小的“工位”上,拣啊拣啊拣:这次放出的视频亮点之一在于Optimus在厂子里完成这项工作,是完全自主的,全程没有人为的干预。并且在Optimus的视角之下,它还可以把放歪了的电池重新捡起来放置,主打一个自动纠错:对于Optimus的手,英伟达科学家JimFan给出了高度的评价:Optimus的手是全球五指机器人里最灵巧的之一。它的手不仅有触觉

写在前面项目链接:https://nianticlabs.github.io/mickey/给定两张图片,可以通过建立图片之间的对应关系来估计它们之间的相机姿态。通常,这些对应关系是二维到二维的,而我们估计的姿态在尺度上是不确定的。一些应用,例如随时随地实现即时增强现实,需要尺度度量的姿态估计,因此它们依赖于外部的深度估计器来恢复尺度。本文提出了MicKey,这是一个关键点匹配流程,能够够预测三维相机空间中的度量对应关系。通过学习跨图像的三维坐标匹配,我们能够在没有深度测试的情况下推断出度量相对

什么?疯狂动物城被国产AI搬进现实了?与视频一同曝光的,是一款名为「可灵」全新国产视频生成大模型。Sora利用了相似的技术路线,结合多项自研技术创新,生产的视频不仅运动幅度大且合理,还能模拟物理世界特性,具备强大的概念组合能力和想象力。数据上看,可灵支持生成长达2分钟的30fps的超长视频,分辨率高达1080p,且支持多种宽高比。另外再划个重点,可灵不是实验室放出的Demo或者视频结果演示,而是短视频领域头部玩家快手推出的产品级应用。而且主打一个务实,不开空头支票、发布即上线,可灵大模型已在快影
