ICLR 2024 Oral | 应对随时间变化的分布偏移,西安大略大学等提出学习时序轨迹方法

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
作者曾秋琳,毕业于哈尔滨工业大学,硕士毕业于新加坡国立大学。在王博授和凌晓峰院士的指导下,博士期间主要围绕随机时间变化的分布问题展开理论论证、方法和应用的研究。目前已在ICLR/AAAI/IEEE TNNLS发表多篇学术论文。
个人主页:https://hardworkingpearl.github.io/
在现实世界的机器学习应用中,随时间变化的分布偏移是常见的问题。这种情况被构建为时变域泛化(EDG),目标是通过学习跨领域的潜在演变模式,并利用这些模式,使模型能够在时间变化系统中对未见目标域进行良好的泛化。然而,由于 EDG 数据集中时间戳的数量有限,现有方法在捕获演变动态和避免对稀疏时间戳的过拟合方面遇到了挑战,这限制了它们对新任务的泛化和适应性。
为了解决这个问题,我们提出了一种新的方法 SDE-EDG,它通过连续插值样本收集数据分布的无限细分网格演变轨迹(IFGET),以克服过拟合的问题。此外,通过利用随机微分方程(SDEs)捕获连续轨迹的固有能力,我们提出了将 SDE 建模的轨迹通过最大似然估计与 IFGET 的轨迹对齐,从而实现捕获分布演变趋势。
论文标题:Latent Trajectory Learning for Limited Timestamps under Distribution Shift over Time
论文链接:https://openreview.net/pdf?id=bTMMNT7IdW
项目链接:https://github.com/HardworkingPearl/SDE-EDG-iclr2024
方法
核心思想
为了克服这一挑战,SDE-EDG 提出了一种新颖的方法,通过构建无限细分网格演变轨迹(Infinitely Fined-Grid Evolving Trajectory, IFGET),在潜在表示空间中创建连续插值样本,以弥合时间戳之间的间隔。此外,SDE-EDG 利用随机微分方程(Stochastic Differential Equations, SDEs)的内在能力来捕捉连续的轨迹动态,通过路径对齐正则化器将 SDE 建模的轨迹与 IFGET 对齐,从而实现跨域捕获演变分布趋势。
方法细节
1. 构建 IFGET:
首先,SDE-EDG 在潜在表示空间中为每个样本建立样本到样本的对应关系,收集每个个体样本的演变轨迹。对于时刻的每个类别 k 的任一样本
,我们搜索
时刻在特征空间离其最近的
为其在
的对应样本:
这里是计算两个向量之间的距离,
是从下个领域
采样的
个样本的集合。
然后,利用这种对应关系生成连续插值样本,旨在连接时间戳间隔之间的时间间隙,避免对稀疏时间戳的过拟合,
这里采样自 Beta 分布。通过收集通过以上方式产生的样本的时序轨迹
,我们得到 IFGET。
2. 使用 SDE 建模轨迹:
SDE-EDG 采用神经 SDE 来模拟数据在潜在空间中的连续时间轨迹。与传统的基于离散时间戳的模型不同, SDE 天然适合于模拟连续的时间轨迹。SDE-EDG 建模了时序轨迹,可以通过时刻的样本预测任意未来时刻
的样本:
这里特征空间变量是由
时刻的样本预测得到,
是 drift function,
是 diffusion function。
3. 路径对齐与最大似然估计:
SDE-EDG 通过最大化 IFGET 的似然估计来训练模型,
最终训练函数是,第一项是预测分类任务误差损失函数。
4. 实验
下表展示了 SDE-EDG 与其他基线方法在多个数据集上分类准确率的比较。这些数据集包括 Rotated Gaussian (RG), Circle (Cir), Rotated MNIST (RM), Portraits (Por), Caltran (Cal), PowerSupply (PS), 和 Ocular Disease (OD)。结果显示,SDE-EDG 在所有数据集上的平均准确率均优于其他方法。
下图提供了一个直观的比较,展示了 SDE-EDG 算法(左)与传统 DG 方法 IRM(右)在特征表示方面的差异。通过数据特征空间的可视化,我们可以观察到 SDE-EDG 学习到的特征表示具有明显的决策边界,其中不同类别的数据点被清晰地区分开来,以不同形状表示,并且不同域的数据以彩虹条的颜色区分。这表明 SDE-EDG 能够成功捕捉数据随时间演变的动态,并在特征空间中保持类别的可分性。相比之下,IRM 的特征表示则倾向于将数据点坍缩到单一方向,导致决策边界不明显,这反映出 IRM 在捕捉时变分布趋势方面的不足。
下图通过一系列子图深入展示了 SDE-EDG 算法在捕捉数据随时间演变的能力方面的优势。子图 (a) 提供了 Sine 数据集的真实标签分布,其中正例和负例用不同颜色的点表示,为后续的比较提供了基准。接着,子图 (b) 和 (c) 分别展示了基于 ERM 的传统方法和 SDE-EDG 算法对同一数据集的预测结果,通过对比可以看出 SDE-EDG 在捕捉数据演变模式上的明显优势。子图 (d) 和 (e) 进一步揭示了 SDE-EDG 学习到的演变路径,其中 (d) 展示了应用了路径对齐损失(最大似然损失函数)后的路径,而 (e) 展示了未应用该损失时的路径。通过这一对比,可以直观地看到路径对齐损失对于确保模型能够正确捕捉和表征数据随时间变化的重要性。
-
下图子图 (a) 展示了在 Portraits 数据集上,使用不同算法进行训练时的准确率收敛轨迹。这个子图提供了一个直观的视角,用以比较 SDE-EDG 算法与其他基线方法(如 ERM、MLDG、GI)在训练过程中性能的变化情况。通过观察训练准确率随时间推移的增长趋势,我们可以评估不同算法的学习能力和收敛速度。SDE-EDG 算法的收敛轨迹尤其值得关注,因为它揭示了该算法在适应不断演变的数据分布时的效率和稳定性。
下图子图 (b) 和 (c) 分别展示了 RMNIST 和 Circle 数据集上,SDE-EDG 算法在这些数据集上的表现显示出其在处理时变分布时的优越性,即使在面对较大时间跨度的目标域时,也能保持较高的准确率,这表明了 SDE-EDG 算法在捕捉和适应数据演变模式方面的强大能力。
下图子图 (d) 和 (e) 探讨了最大似然损失(Maximum Likelihood Loss)在 RMNIST 和 PowerSupply 数据集上对 SDE-EDG 性能的影响。通过改变正则化权重 α 的值,这两个子图展示了不同 α 设置对模型性能的具体影响。实验结果表明,适当的 α 值可以显著提高 SDE-EDG 在特定数据集上的性能,这强调了在实际应用中根据数据集特性和任务需求调整超参数的重要性。
结论
论文作者提出了一种新的 SDE-EDG 方法,用于建模时变域泛化(EDG)问题。方法涉及通过识别样本到样本的对应关系并生成连续插值样本来构建 IFGET。随后,作者采用随机微分方程(SDE)并将其与 IFGET 对齐进行训练。文章的贡献在于揭示了通过收集个体的时间轨迹来捕获演变模式的重要性,以及在时间间隔之间进行插值以减轻源时间戳数量有限的问题,这有效地防止了 SDE-EDG 对有限时间戳的过拟合。
以上是ICLR 2024 Oral | 应对随时间变化的分布偏移,西安大略大学等提出学习时序轨迹方法的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

同样是图生视频,PaintsUndo走出了不一样的路线。ControlNet作者LvminZhang又开始整活了!这次瞄准绘画领域。新项目PaintsUndo刚上线不久,就收获1.4kstar(还在疯狂涨)。项目地址:https://github.com/lllyasviel/Paints-UNDO通过该项目,用户输入一张静态图像,PaintsUndo就能自动帮你生成整个绘画的全过程视频,从线稿到成品都有迹可循。绘制过程,线条变化多端甚是神奇,最终视频结果和原图像非常相似:我们再来看一个完整的绘

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com这篇论文的作者均来自伊利诺伊大学香槟分校(UIUC)张令明老师团队,包括:StevenXia,四年级博士生,研究方向是基于AI大模型的自动代码修复;邓茵琳,四年级博士生,研究方

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智能领域的发展过程中,对大语言模型(LLM)的控制与指导始终是核心挑战之一,旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法(RL

干杯!当论文讨论细致到词句,是什么体验?最近,斯坦福大学的学生针对arXiv论文创建了一个开放讨论论坛——alphaXiv,可以直接在任何arXiv论文之上发布问题和评论。网站链接:https://alphaxiv.org/其实不需要专门访问这个网站,只需将任何URL中的arXiv更改为alphaXiv就可以直接在alphaXiv论坛上打开相应论文:可以精准定位到论文中的段落、句子:右侧讨论区,用户可以发表问题询问作者论文思路、细节,例如:也可以针对论文内容发表评论,例如:「给出至

如果AI模型给的答案一点也看不懂,你敢用吗?随着机器学习系统在更重要的领域得到应用,证明为什么我们可以信任它们的输出,并明确何时不应信任它们,变得越来越重要。获得对复杂系统输出结果信任的一个可行方法是,要求系统对其输出产生一种解释,这种解释对人类或另一个受信任的系统来说是可读的,即可以完全理解以至于任何可能的错误都可以被发现。例如,为了建立对司法系统的信任,我们要求法院提供清晰易读的书面意见,解释并支持其决策。对于大型语言模型来说,我们也可以采用类似的方法。不过,在采用这种方法时,确保语言模型生

最近,被称为千禧年七大难题之一的黎曼猜想迎来了新突破。黎曼猜想是数学中一个非常重要的未解决问题,与素数分布的精确性质有关(素数是那些只能被1和自身整除的数字,它们在数论中扮演着基础性的角色)。在当今的数学文献中,已有超过一千条数学命题以黎曼猜想(或其推广形式)的成立为前提。也就是说,黎曼猜想及其推广形式一旦被证明,这一千多个命题将被确立为定理,对数学领域产生深远的影响;而如果黎曼猜想被证明是错误的,那么这些命题中的一部分也将随之失去其有效性。新的突破来自MIT数学教授LarryGuth和牛津大学

语言模型真的能用于时序预测吗?根据贝特里奇头条定律(任何以问号结尾的新闻标题,都能够用「不」来回答),答案应该是否定的。事实似乎也果然如此:强大如斯的LLM并不能很好地处理时序数据。时序,即时间序列,顾名思义,是指一组按照时间发生先后顺序进行排列的数据点序列。在很多领域,时序分析都很关键,包括疾病传播预测、零售分析、医疗和金融。在时序分析领域,近期不少研究者都在研究如何使用大型语言模型(LLM)来分类、预测和检测时间序列中的异常。这些论文假设擅长处理文本中顺序依赖关系的语言模型也能泛化用于时间序

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显着的成功。然而,作为许多下游任务的基础模型,当前的MLLM由众所周知的Transformer网络构成,这种网
