首页 科技周边 人工智能 ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

Mar 05, 2024 pm 10:58 PM
产业 视频表征学习

在 2024 世界经济论坛的一次会谈中,图灵奖得主 Yann LeCun 提出用来处理视频的模型应该学会在抽象的表征空间中进行预测,而不是具体的像素空间 [1]。借助文本信息的多模态视频表征学习可抽取利于视频理解或内容生成的特征,正是促进该过程的关键技术。

然而,当下视频与文本描述间广泛存在的噪声关联现象严重阻碍了视频表征学习。因此本文中,研究者基于最优传输理论,提出鲁棒的长视频学习方案以应对该挑战。该论文被机器学习顶会 ICLR 2024 接收为了 Oral。

ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

  • 论文题目:Multi-granularity Correspondence Learning from Long-term Noisy Videos
  • 论文地址:https://openreview.net/pdf?id=9Cu8MRmhq2
  • 项目地址:https://lin-yijie.github.io/projects/Norton
  • 代码地址:https://github.com/XLearning-SCU/2024-ICLR-Norton

背景与挑战

视频表征学习是多模态研究中最热门的问题之一。大规模视频 - 语言预训练已在多种视频理解任务中取得显著效果,例如视频检索、视觉问答、片段分割与定位等。目前大部分视频 - 语言预训练工作主要面向短视频的片段理解,忽略了长视频中存在的长时关联与依赖。

如下图 1 所示,长视频学习核心难点是如何去编码视频中的时序动态,目前的方案主要集中于设计定制化的视频网络编码器去捕捉长时依赖 [2],但通常面临很大的资源开销。

ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

图 1:长视频数据示例 [2]。该视频中包含了复杂的故事情节和丰富的时序动态。每个句子只能描述一个简短的片段,理解整个视频需要具有长时关联推理能力。

由于长视频通常采用自动语言识别(ASR)得到相应的文本字幕,整个视频所对应的文本段落(Paragraph)可根据 ASR 文本时间戳切分为多个短的文本标题(Caption),同时长视频(Video)可相应切分为多个视频片段(Clip)。对视频片段与标题进行后期融合或对齐的策略相比直接编码整个视频更为高效,是长时时序关联学习的一种优选方案。

然而,视频片段与文本句子间广泛存在噪声关联现象(Noisy correspondence [3-4],NC),即视频内容与文本语料错误地对应 / 关联在一起。如下图 2 所示,视频与文本间会存在多粒度的噪声关联问题。

ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

图 2:多粒度噪声关联。该示例中视频内容根据文本标题切分为 6 块。(左图)绿色时间线指示该文本可与视频内容对齐,红色时间线则指示该文本无法与整个视频中的内容对齐。t5 中的绿色文本表示与视频内容 v5 有关联的部分。(右图)虚线表示原本给定的对齐关系,红色指示原本对齐中错误的对齐关系,绿色则指示真实的对齐关系。实线表示通过 Dynamic Time Wraping 算法进行重新对齐的结果,其也未能很好地处理噪声关联挑战。

  • 粗粒度 NC(Clip-Caption 间)。粗粒度 NC 包括异步(Asynchronous)和不相关(Irrelevant)两类,区别在于该视频片段或标题能否与现有标题或视频片段相对应。其中「异步」指视频片段与标题间存在时序上的错位,例如图 2 中 t1。由于讲述者在实际执行动作的前后进行解释,导致陈述与行动的顺序不匹配。「不相关」则指无法与视频片段对齐的无意义标题(例如 t2 和 t6),或是无关的视频片段。根据牛津 Visual Geometry Group 的相关研究 [5],HowTo100M 数据集中只有约 30% 的视频片段与标题在视觉上是可对齐的,而仅有 15% 是原本就对齐的;
  • 细粒度 NC(Frame-Word 间)。针对一个视频片段,可能一句文本描述中只有部分文字与其相关。在图 2 中,标题 t5 中「糖撒在上面」与视觉内容 v5 强相关,但动作「观察釉面脱落」则与视觉内容并不相关。无关的单词或视频帧可能会阻碍关键信息提取,从而影响片段与标题间的对齐。

方法

本文提出噪声鲁棒的时序最优传输(NOise Robust Temporal Optimal transport, Norton),通过视频 - 段落级对比学习与片段 - 标题级对比学习,以后期融合的方式从多个粒度学习视频表征,显著节省了训练时间开销。

ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

                                图 3 视频 - 段落对比算法框架图。

1)视频 - 段落对比。如图 3 所示,研究者以 fine-to-coarse 的策略进行多粒度关联学习。首先利用帧 - 词间相关性得到片段 - 标题间相关性,并进一步聚集得到视频 - 段落间相关性,最终通过视频级对比学习捕捉长时序关联。针对多粒度噪声关联挑战,具体应对如下:

  • 面向细粒度 NC。研究者采用 log-sum-exp 近似作为 Soft-maximum 算子去识别帧 - 词和词 - 帧对齐中的关键词和关键帧,以细粒度的交互方式实现重要信息抽取,累计得到片段 - 标题相似性。
  • 面向粗粒度异步 NC。研究者采用最优传输距离作为视频片段和标题之间的距离度量。给定视频片段 - 文本标题间相似性矩阵ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天,其中ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天表示片段与标题个数,最优传输目标为最大化整体对齐相似性,可天然处理时序异步或一对多(如 t3 与 v4,v5 对应)的复杂对齐情况。

ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

其中ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天为均匀分布给予每个片段、标题同等权重,ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天为传输指派或重对齐矩,可通过 Sinkhorn 算法求解。
  • 面向粗粒度不相关 NC。受特征匹配中 SuperGlue [6] 启发,我们设计了自适应的可对齐提示桶去尝试过滤不相关的片段与标题。提示桶是一行一列的相同值向量,拼接于相似性矩阵ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天上,其数值代表是否可对齐的相似度阈值。提示桶可无缝融入最优传输 Sinkhorn 求解中。

ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

通过最优传输来度量序列距离,而非直接对长视频进行建模,可显着减少计算量。最终视频 - 段落损失函数如下,其中ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天表示第ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天个长视频与第ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天个文本段落间的相似性矩阵。

ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

2)片段 - 标题对比。该损失确保视频 - 段落对比中片段与标题对齐的准确性。由于自监督对比学习会将语义相似的样本错误地作为负样本优化,我们利用最优传输识别并矫正潜在的假阴性样本:

ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

其中ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天代表训练批次中的所有视频片段和标题个数,单位矩阵ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天代表对比学习交叉熵损失中的标准对齐目标,ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天代表融入最优传输矫正目标ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天后的重对齐目标,ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天为权重系数。

实验

本文旨在克服噪声关联以提升模型对长视频的理解能力。我们通过视频检索、问答、动作分割等具体任务进行验证,部分实验结果如下。

1)长视频检索

该任务目标为给定文本段落,检索对应的长视频。在 YouCookII 数据集上,依据是否保留文本无关的视频片段,研究者测试了背景保留与背景移除两种场景。他们采用 Caption Average、DTW 与 OTAM 三种相似性度量准则。 Caption Average 为文本段落中每个标题匹配一个最优视频片段,最终召回匹配数最多的长视频。 DTW 和 OTAM 按时间顺序累计视频与文本段落间距离。结果如下表 1、2 所示。

ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

                                表 1、2 在 YouCookII 数据集上的长视频检索性能比较

2)噪声关联鲁棒性分析

牛津 Visual Geometry Group 对 HowTo100M 中的视频进行了手工重标注,对每个文本标题重新标注正确的时间戳。产出的 HTM-Align 数据集 [5] 包含 80 个视频与 49K 条文本。在该数据集上进行视频检索主要验证模型是否过度拟合了噪声关联,结果如下表 9 所示。

ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

                                            表 9 在 HTM-Align 数据集上针对噪声关联的有效性分析

总结与展望

本文是噪声关联学习 [3][4]—— 数据错配 / 错误关联的深入延续,研究多模态视频 - 文本预训练面临的多粒度噪声关联问题,所提出的长视频学习方法能够以较低资源开销扩展到更广泛的视频数据中。

展望未来,研究者可进一步探讨多种模态间的关联问题,例如视频往往包含视觉、文本及音频信号;可尝试结合外部大语言模型(LLM)或多模态模型(BLIP-2)来清洗和重组织文本语料;以及探索将噪声作为模型训练正激励的可能性,而非仅仅抑制噪声的负面影响。

参考文献:
1. 本站,“Yann LeCun:生成模型不适合处理视频,AI 得在抽象空间中进行预测”,2024-01-23.
2.Sun, Y., Xue, H., Song, R., Liu, B., Yang, H., & Fu, J. (2022). Long-form video-language pre-training with multimodal temporal contrastive learning. Advances in neural information processing systems, 35, 38032-38045.
3.Huang, Z., Niu, G., Liu, X., Ding, W., Xiao, X., Wu, H., & Peng, X. (2021). Learning with noisy correspondence for cross-modal matching. Advances in Neural Information Processing Systems, 34, 29406-29419.
4.Lin, Y., Yang, M., Yu, J., Hu, P., Zhang, C., & Peng, X. (2023). Graph matching with bi-level noisy correspondence. In Proceedings of the IEEE/CVF international conference on computer vision.
5.Han, T., Xie, W., & Zisserman, A. (2022). Temporal alignment networks for long-term video. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 2906-2916).
6.Sarlin, P. E., DeTone, D., Malisiewicz, T., & Rabinovich, A. (2020). Superglue: Learning feature matching with graph neural networks. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 4938-4947).

以上是ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

DeepMind机器人打乒乓球,正手、反手溜到飞起,全胜人类初学者 DeepMind机器人打乒乓球,正手、反手溜到飞起,全胜人类初学者 Aug 09, 2024 pm 04:01 PM

但可能打不过公园里的老大爷?巴黎奥运会正在如火如荼地进行中,乒乓球项目备受关注。与此同时,机器人打乒乓球也取得了新突破。刚刚,DeepMind提出了第一个在竞技乒乓球比赛中达到人类业余选手水平的学习型机器人智能体。论文地址:https://arxiv.org/pdf/2408.03906DeepMind这个机器人打乒乓球什么水平呢?大概和人类业余选手不相上下:正手反手都会:对手采用多种打法,该机器人也能招架得住:接不同旋转的发球:不过,比赛激烈程度似乎不如公园老大爷对战。对机器人来说,乒乓球运动

首配机械爪!元萝卜亮相2024世界机器人大会,发布首个走进家庭的国际象棋机器人 首配机械爪!元萝卜亮相2024世界机器人大会,发布首个走进家庭的国际象棋机器人 Aug 21, 2024 pm 07:33 PM

8月21日,2024世界机器人大会在北京隆重召开。商汤科技旗下家用机器人品牌“元萝卜SenseRobot”家族全系产品集体亮相,并最新发布元萝卜AI下棋机器人——国际象棋专业版(以下简称“元萝卜国象机器人”),成为全球首个走进家庭的国际象棋机器人。作为元萝卜的第三款下棋机器人产品,全新的国象机器人在AI和工程机械方面进行了大量专项技术升级和创新,首次在家用机器人上实现了通过机械爪拾取立体棋子,并进行人机对弈、人人对弈、记谱复盘等功能,

Claude也变懒了!网友:学会给自己放假了 Claude也变懒了!网友:学会给自己放假了 Sep 02, 2024 pm 01:56 PM

开学将至,该收心的不止有即将开启新学期的同学,可能还有AI大模型。前段时间,Reddit上挤满了吐槽Claude越来越懒的网友。「它的水平下降了很多,经常停顿,甚至输出也变得很短。在发布的第一周,它可以一次性翻译整整4页文稿,现在连半页都输出不了了!」https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一个名为「对Claude彻底失望了的帖子里」,满满地

世界机器人大会上,这家承载「未来养老希望」的国产机器人被包围了 世界机器人大会上,这家承载「未来养老希望」的国产机器人被包围了 Aug 22, 2024 pm 10:35 PM

正在北京举行的世界机器人大会上,人形机器人的展示成为了现场绝对的焦点,在星尘智能的展台上,由于AI机器人助理S1在一个展区上演扬琴、武术、书法三台大戏,能文能武,吸引了大量专业观众和媒体的驻足。在带弹性的琴弦上的优雅演奏,让S1展现出速度、力度、精度兼具的精细操作和绝对掌控。央视新闻对「书法」背后的模仿学习和智能控制进行了专题报道,公司创始人来杰解释到,丝滑动作的背后,是硬件侧追求最好力控和最仿人身体指标(速度、负载等),而是在AI侧则采集人的真实动作数据,让机器人遇强则强,快速学习进化。而敏捷

ACL 2024奖项公布:华科大破译甲骨文最佳论文之一、GloVe时间检验奖 ACL 2024奖项公布:华科大破译甲骨文最佳论文之一、GloVe时间检验奖 Aug 15, 2024 pm 04:37 PM

本届ACL大会,投稿者「收获满满」。为期六天的ACL2024正在泰国曼谷举办。ACL是计算语言学和自然语言处理领域的顶级国际会议,由国际计算语言学协会组织,每年举办一次。一直以来,ACL在NLP领域的学术影响力都位列第一,它也是CCF-A类推荐会议。今年的ACL大会已是第62届,接收了400余篇NLP领域的前沿工作。昨天下午,大会公布了最佳论文等奖项。此次,最佳论文奖7篇(两篇未公开)、最佳主题论文奖1篇、杰出论文奖35篇。大会还评出了资源论文奖(ResourceAward)3篇、社会影响力奖(

鸿蒙智行享界S9及全场景新品发布会,多款重磅新品齐发 鸿蒙智行享界S9及全场景新品发布会,多款重磅新品齐发 Aug 08, 2024 am 07:02 AM

今天下午,鸿蒙智行正式迎来了新品牌与新车。 8月6日,华为举行鸿蒙智行享界S9及华为全场景新品发布会,带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕升激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品,从智慧出行、智慧办公到智能穿戴,华为全场景智慧生态持续构建,为消费者带来万物互联的智慧体验。鸿蒙智行:深度赋能,推动智能汽车产业升级华为联合中国汽车产业伙伴,为

李飞飞团队提出ReKep,让机器人具备空间智能,还能整合GPT-4o 李飞飞团队提出ReKep,让机器人具备空间智能,还能整合GPT-4o Sep 03, 2024 pm 05:18 PM

视觉与机器人学习的深度融合。当两只机器手丝滑地互相合作叠衣服、倒茶、将鞋子打包时,加上最近老上头条的1X人形机器人NEO,你可能会产生一种感觉:我们似乎开始进入机器人时代了。事实上,这些丝滑动作正是先进机器人技术+精妙框架设计+多模态大模型的产物。我们知道,有用的机器人往往需要与环境进行复杂精妙的交互,而环境则可被表示成空间域和时间域上的约束。举个例子,如果要让机器人倒茶,那么机器人首先需要抓住茶壶手柄并使之保持直立,不泼洒出茶水,然后平稳移动,一直到让壶口与杯口对齐,之后以一定角度倾斜茶壶。这

分布式人工智能盛会DAI 2024征稿:Agent Day,强化学习之父Richard Sutton将出席!颜水成、Sergey Levine以及DeepMind科学家将做主旨报告 分布式人工智能盛会DAI 2024征稿:Agent Day,强化学习之父Richard Sutton将出席!颜水成、Sergey Levine以及DeepMind科学家将做主旨报告 Aug 22, 2024 pm 08:02 PM

会议简介随着科技的飞速发展,人工智能已经成为了推动社会进步的重要力量。在这个时代,我们有幸见证并参与到分布式人工智能(DistributedArtificialIntelligence,DAI)的创新与应用中。分布式人工智能是人工智能领域的重要分支,这几年引起了越来越多的关注。基于大型语言模型(LLM)的智能体(Agent)异军突起,通过结合大模型的强大语言理解和生成能力,展现出了在自然语言交互、知识推理、任务规划等方面的巨大潜力。AIAgent正在接棒大语言模型,成为当前AI圈的热点话题。Au

See all articles