时序分析五边形战士!清华提出TimesNet:预测、填补、分类、检测全面领先
实现任务通用是深度学习基础模型研究的核心问题,也是近期大模型方向的主要关注点之一。
然而,在时间序列领域,各类分析任务的差别较大,既有需要细粒度建模的预测任务,也有需要提取高层语义信息的分类任务。如何构建统一的深度基础模型高效地完成各类时序分析任务,此前尚未有成型方案。
为此,来自清华大学软件学院的团队围绕时序变化建模这一基本问题展开研究,提出了任务通用的时序基础模型TimesNet,论文被ICLR 2023接收。
作者列表:吴海旭*,胡腾戈*,刘雍*,周航,王建民,龙明盛
链接:https://openreview.net/pdf?id=ju_Uqw384Oq
代码:https://github.com/thuml/TimesNet
时序算法库:https://github.com/thuml/Time-Series-Library
TimesNet在长时、短时预测、缺失值填补、异常检测、分类五大任务上实现了全面领先。
1 问题分析
不同于自然语言、视频等序列数据,时间序列中单个时刻仅保存了一些标量,其关键信息更多地被蕴含在时序变化(Temporal Variation)中。
因此,建模时序变化是各类时序分析任务共同的核心问题。
近年来,各类深度模型被广泛用于时序分析任务中,例如循环神经网络(RNN)、时序卷积网络(TCN)和变换器网络(Transformer)。
然而,前两类方法主要关注捕捉临近时刻之间的变化,在长期依赖上建模能力不足。
Transformer虽然在建模长期依赖上具有天然优势,但是由于现实世界的时序变化极其复杂,仅仅依靠离散时间点之间的注意力(Attention)难以挖掘出可靠的时序依赖。
为此,本文从一个全新的多周期(Multi-periodicity)视角对时序变化进行了分析,如下图所示。我们观察到:
- 时间序列天然具有多周期性。
现实世界的时序数据往往是不同周期过程的相互叠加,例如交通数据在短期内的以日为周期变化,而长期则以星期为周期变化。这些不同周期的数据互相叠加、互相干扰,给时间序列分析带来了极大挑战。
- 时间序列呈现周期内与周期间两种时序变化。
具体地,对于某一特定周期的过程,每个时间点的变化既与临近时刻有关,也与临近周期的相似过程高度相关。其中周期内变化对应着短期过程,周期间变化则可以反应连续周期间的长期趋势。注:如果时间序列没有明显周期性,则等价于周期无限长的情况。
2 设计思路
基于以上两点观察,我们对TimesNet的结构作出了如下设计:
- 时间序列的多周期性自然地启发了一个模块化(Modular)的设计思路,即一个模块捕捉由某一特定周期主导的时序变化。这种模块化的设计思路可以将复杂的时间变化解耦,从而有利于后续建模。
- 对于时间序列的周期内与周期间变化,本文创新性地提出将一维时序数据扩展至二维空间进行分析。如上图所示,将一维时间序列基于多个周期进行折叠,可以得到多个二维张量(2D tensors),每个二维张量的列和行分别反应了周期内与周期间的时序变化,即得到了二维时序变化(Temporal 2D-variations)。
上图示例展示了将一维时序数据折叠至二维空间的可视化效果。此处,Period方向反应周期内变化,而Frequency方向代表周期间变化。我们可以看出转化至二维空间的时序数据具有明显的二维局部性(2D locality)。
因此,在折叠时序数据后,我们可以直接采用先进的视觉骨干网络对时序数据进行特征提取,例如Swin Transformer、ResNeXt、ConvNeXt等。这种设计也使得时序分析任务可以直接受益于蓬勃发展的计算机视觉领域。
3 TimesNet
基于上述思路,我们提出了TimesNet模型,通过模块化结构将复杂时序变化分解至不同周期,并通过将原始一维时间序列转化至二维空间实现了周期内与周期间变化的统一建模。
在这一节中,我们将先介绍将时序数据扩展至二维空间的方法,再介绍模型的整体架构。
3.1 时序变化:1D->2D
时序折叠的流程如上图所示,主要分为以下两步:
(1)周期提取
对于一个时间长度为、通道维度为的一维时间序列,可以由时间维度的快速傅立叶变换(FFT)直接提取周期信息,即:
其中,代表了中每个频率分量的强度,强度最大的个频率对应着最显著的个周期长度。
(2)序列折叠1D->2D
对于选定的个周期,分别对原始的一维时间序列进行折叠,该过程可以形式化为:
其中,为在序列末尾补0,使得序列长度可以被整除。
通过上述操作,我们得到了一组二维张量,其中对应周期为的二维时序变化。
3.2 模型设计
TimesNet的整体架构如图所示:
整体上,TimesNet由堆叠的TimesBlock组成。输入序列首先经过嵌入层得到深度特征。对于第层TimesBlock,其输入为,输出为:
具体地,如下图所示,每个TimesBlock包含以下子过程:
(1)折叠时间序列(1D->2D):TimesBlock首先对输入的一维时序特征提取周期,再将之转换成为二维时序变化,即在上一节中涉及的内容:
(2)提取二维时序变化表征(2D Representation):如前分析,转换得到的二维时序变化具有2D局部性,因此可以直接使用2D卷积提取特征。此处,我们选用了经典的Inception模型,即:
值得注意的是,因为我们已经将1D时序特征转换至2D空间,所以我们还可以利用计算机视觉领域的许多前沿模型,例如ResNeXt、ConvNeXt以及基于Attention的Swin Transformer等等。这使得时间序列分析可以与视觉骨干网络协同并进。
(3)展开时间序列(2D->1D):为了后续多周期融合,我们将二维时序变化表征展开至一维度空间:
Trunc(⋅)表示将步骤(1)中Padding(⋅)操作补充的0去除。
(4)自适应融合(1D Aggregation):为融合多周期信息,我们将提取到的二维时序表征进行加权求和,选用的求和权重即为步骤(1)中得到的对应频率强度:
通过将1D时间序列转化至2D空间的设计,TimesNet实现了「多个周期分别提取二维时序变化,再进行自适应融合」的时序变化建模过程。
4 实验
我们在长时预测、短时预测、缺失值填补、异常检测、分类五大任务上进行了实验,涵盖36个数据集、81种不同的实验设置。
同时,对比了19种不同的深度方法,包含最新的基于RNN、CNN、MLP、Transformer的模型,例如N-BEATS(2019),Autoformer(2021),LSSL(2022),N-Hits(2022),FEDformer(2022),Dlinear(2023)等。
4.1 总体结果
如开篇雷达图所示,TimesNet在五项任务上均达到了SOTA。
(1)长时预测:在此备受关注的任务上,TimesNet超过了先进的基于Transformer与MLP的模型。
(2)短时预测:此实验中使用的M4数据集包含6个不同采样频率的子数据集,总共超过10万条数据。TimesNet在此复杂数据分布情况下依然取得了最优的效果,验证了模型的时序变化建模能力。
(3)分类任务:在此任务上,TimesNet超过了经典的Rocket算法以及前沿深度学习模型Flowformer。
更多任务的对比请见论文。
4.2 视觉骨干网络的泛化性
我们将TimesNet中的Inception网络替换为不同的视觉骨干网络,例如ResNet,ConvNext,Swin Transformer等。
如下图所示,更先进的视觉骨干网络可以带来更优秀的效果。这也意味着在TimesNet的框架下,时间序列分析可以直接受益于视觉骨干网络领域的进展。
4.3 表征分析
为了进一步探索TimesNet的效果来源,我们展示了「模型底层-顶层表征之间的CKA相似度」与「模型效果”之间的关系。其中,CKA相似度越低,代表模型底层-顶层之间的表征差异越大,即更加层次化的表征。
从上述可视化,我们可以观察到:
- 在预测与异常检测任务中,效果越好的模型往往底层-顶层的表征相似度越高,表明任务需要更加底层的表征(low-level representations);
- 在分类与缺失值填补任务中,效果越好的模型往往底层-顶层的表征相似度越低,表明该任务需要层次化表征(hierarchical representation),即更好的全局特征提取能力。
得益于2D空间中的卷积操作,TimesNet可以根据不同任务学习合适的表征,例如预测与异常检测任务中,学习到低层次表征;而分类与缺失值填补任务中,学习到层次化的抽象特征。这也进一步证明了TimesNet作为基础模型的任务泛化性。
同时,上述表征分析也为针对专一任务的深度模型提供了设计思路,例如对于预测任务要关注底层细粒度特征的提取,对于填补任务则需要进一步兼顾全局表征的学习。
5 总结
受时间序列本质的多周期属性启发,本文提出了一个任务通用的时序分析基础模型——TimesNet。该模型创新性地将一维时间序列折叠至二维空间,并利用2D卷积取时序特征。这一创新使得时序分析任务可以直接受益于蓬勃发展的视觉骨干网络,对于后续研究具有良好的启发性。
同时,TimesNet在长时、短时预测、缺失值填补、异常检测、分类五大主流时序分析任务上实现了全面领先,具有优秀的应用价值。
以上是时序分析五边形战士!清华提出TimesNet:预测、填补、分类、检测全面领先的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

想象一下,一个人工智能模型,不仅拥有超越传统计算的能力,还能以更低的成本实现更高效的性能。这不是科幻,DeepSeek-V2[1],全球最强开源MoE模型来了。DeepSeek-V2是一个强大的专家混合(MoE)语言模型,具有训练经济、推理高效的特点。它由236B个参数组成,其中21B个参数用于激活每个标记。与DeepSeek67B相比,DeepSeek-V2性能更强,同时节省了42.5%的训练成本,减少了93.3%的KV缓存,最大生成吞吐量提高到5.76倍。DeepSeek是一家探索通用人工智

AI,的确正在改变数学。最近,一直十分关注这个议题的陶哲轩,转发了最近一期的《美国数学学会通报》(BulletinoftheAmericanMathematicalSociety)。围绕「机器会改变数学吗?」这个话题,众多数学家发表了自己的观点,全程火花四射,内容硬核,精彩纷呈。作者阵容强大,包括菲尔兹奖得主AkshayVenkatesh、华裔数学家郑乐隽、纽大计算机科学家ErnestDavis等多位业界知名学者。AI的世界已经发生了天翻地覆的变化,要知道,其中很多文章是在一年前提交的,而在这一

波士顿动力Atlas,正式进入电动机器人时代!昨天,液压Atlas刚刚「含泪」退出历史舞台,今天波士顿动力就宣布:电动Atlas上岗。看来,在商用人形机器人领域,波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后,短短十几小时内,就已经有一百多万观看。旧人离去,新角色登场,这是历史的必然。毫无疑问,今年是人形机器人的爆发年。网友锐评:机器人的进步,让今年看起来像人类的开幕式动作、自由度远超人类,但这真不是恐怖片?视频一开始,Atlas平静地躺在地上,看起来应该是仰面朝天。接下来,让人惊掉下巴

本月初,来自MIT等机构的研究者提出了一种非常有潜力的MLP替代方法——KAN。KAN在准确性和可解释性方面表现优于MLP。而且它能以非常少的参数量胜过以更大参数量运行的MLP。比如,作者表示,他们用KAN以更小的网络和更高的自动化程度重现了DeepMind的结果。具体来说,DeepMind的MLP有大约300,000个参数,而KAN只有约200个参数。KAN与MLP一样具有强大的数学基础,MLP基于通用逼近定理,而KAN基于Kolmogorov-Arnold表示定理。如下图所示,KAN在边上具

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow,7项指标排名第一。而且测试并不是在JAX性能表现最好的TPU上完成的。虽然现在在开发者中,Pytorch依然比Tensorflow更受欢迎。但未来,也许有更多的大模型会基于JAX平台进行训练和运行。模型最近,Keras团队为三个后端(TensorFlow、JAX、PyTorch)与原生PyTorch实现以及搭配TensorFlow的Keras2进行了基准测试。首先,他们为生成式和非生成式人工智能任务选择了一组主流

目标检测在自动驾驶系统当中是一个比较成熟的问题,其中行人检测是最早得以部署算法之一。在多数论文当中已经进行了非常全面的研究。然而,利用鱼眼相机进行环视的距离感知相对来说研究较少。由于径向畸变大,标准的边界框表示在鱼眼相机当中很难实施。为了缓解上述描述,我们探索了扩展边界框、椭圆、通用多边形设计为极坐标/角度表示,并定义一个实例分割mIOU度量来分析这些表示。所提出的具有多边形形状的模型fisheyeDetNet优于其他模型,并同时在用于自动驾驶的Valeo鱼眼相机数据集上实现了49.5%的mAP

特斯拉机器人Optimus最新视频出炉,已经可以在厂子里打工了。正常速度下,它分拣电池(特斯拉的4680电池)是这样的:官方还放出了20倍速下的样子——在小小的“工位”上,拣啊拣啊拣:这次放出的视频亮点之一在于Optimus在厂子里完成这项工作,是完全自主的,全程没有人为的干预。并且在Optimus的视角之下,它还可以把放歪了的电池重新捡起来放置,主打一个自动纠错:对于Optimus的手,英伟达科学家JimFan给出了高度的评价:Optimus的手是全球五指机器人里最灵巧的之一。它的手不仅有触觉

FP8和更低的浮点数量化精度,不再是H100的“专利”了!老黄想让大家用INT8/INT4,微软DeepSpeed团队在没有英伟达官方支持的条件下,硬生生在A100上跑起FP6。测试结果表明,新方法TC-FPx在A100上的FP6量化,速度接近甚至偶尔超过INT4,而且拥有比后者更高的精度。在此基础之上,还有端到端的大模型支持,目前已经开源并集成到了DeepSpeed等深度学习推理框架中。这一成果对大模型的加速效果也是立竿见影——在这种框架下用单卡跑Llama,吞吐量比双卡还要高2.65倍。一名
