首页 科技周边 人工智能 给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

Aug 11, 2024 pm 04:02 PM
工程

自从 Sora 发布以来,AI 视频生成领域变得更加「热闹」了起来。过去几个月,我们见证了即梦、Runway Gen-3、Luma AI、快手可灵轮番炸场。

和以往一眼就能识破是 AI 生成的模型不太一样,这批视频大模型可能是我们所见过的「最好的一届」。

然而,视频大语言模型(LLM)惊艳表现的背后离不开庞大且经过精细标注的视频数据集,这需要花费相当高的成本。近期研究领域也涌现了一批无需额外训练的创新方法:采用训练好的图像大语言模型,直接用于视频任务的处理,这样就绕开了「昂贵」的训练过程。

此外,现有大多视频 LLM 存在两个主要缺点:(1)它们只能处理有限帧数的视频输入,这使得模型难以捕捉视频中细微的空间和时间内容;(2)它们缺少时间建模设计,而是简单地将视频特征输入到 LLM 中,完全依赖于 LLM 对运动的建模能力。

针对以上问题,苹果研究人员提出了 SlowFast-LLaVA(简称 SF-LLaVA)。这一模型基于字节团队开发的 LLaVA-NeXT 架构,无需额外微调,开箱即用。研究团队受在动作识别领域大获成功的双流网络的启发,为视频 LLM 设计了一套新颖的 SlowFast 输入机制。

简单来说,SF-LLaVA 将通过两种不同的观察速度(Slow 和 Fast)来理解视频中的细节和运动。

  • 慢速路径:低帧率提取特征,同时尽可能多地保留空间细节(例如每 8 帧保留 24×24 个 token)
  • 快速路径:高帧率运行,但用较大的空间池化步长降低视频的分辨率,以模拟更大的时间上下文,更专注于理解动作的连贯性

这相当于模型拥有两只「眼睛」:一只慢慢看,注意看细节;另一只快速看,注意看动作。这样就解决了大多现有的视频 LLM 的痛点,既能捕捉到详细的空间语义,又能捕捉到更长的时间上下文。

给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

论文链接:https://arxiv.org/pdf/2407.15841

实验结果显示,SF-LLaVA 在所有基准测试中均以显著的优势超越了现有免训练方法。与精心微调的 SFT 模型相比,SF-LLaVA 能达到相同性能,甚至更好。

给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

模型架构

如下图所示,SF-LLaVA 遵循标准的免训练视频 LLM 流程。它以视频 V 和问题 Q 作为输入,输出对应的答案 A。

给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

对于输入,要从每个视频任意大小和长度中均匀采样 N 帧,I = {I_1, I_2, ..., I_N},不需要对选取的视频帧进行特别的组合或排列。以帧为单位视独立提取频特征为 F_v ∈ R^N×H×W,其中 H 和 W 分别是帧特征的高度和宽度。

下一步需要在慢速和快速两个路径中进一步处理 F_v,并将它们结合起来作为有效的视频表示。慢速路径从 F_v 中均匀采样给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA的帧特征,其中给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

此前有研究发现,在空间维度上适当池化可以提高视频生成的效率和鲁棒性。因此,研究团队在 F_v 上应用步长为 σ_h×σ_w 的池化过程,得到最终特征:给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA,其中给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA。慢速路径的整个过程如公式 2 所示。

给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

快速路径保留 F_v 中的所有帧特征,以尽可能多地捕捉视频的长程时间上下文。具体来说,研究团队使用空间池化步长给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA对 F_v 进行激进的下采样,得到最终特征给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA。研究团队设置给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA,使得快速路径能专注于模拟时间上下文和运动线索。慢速路径的整个过程如公式 3 所示。

给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

最后,获得聚合的视频特征:给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA,其中 flat 和 [, ] 分别表示展平和连接操作。如表达式所示,给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA不需要任何特殊的 token 来分隔慢速和快速路径。SF-LLaVA 总共使用给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA个视频 token。视频的视觉特征给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA将和文本信息(比如用户提出的问题)将被组合在一起,作为输入数据送入大型语言模型(LLM)进行处理。

SlowFast 流程如公式 4 所示。

给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

实验结果

研究团队对 SF-LLaVA 进行了全面的性能评估,将其与当前 SOTA 免训练模型(如 IG-VLM 和 LLoVi)在多个视频问答任务中进行了对比。此外,他们还将其与经过视频数据集监督微调(SFT)的视频 LLM,例如 VideoLLaVA 和 PLLaVA 进行了比较。

开放式视频问答

如下表所示,在开放式视频问答任务中,SF-LLaVA 在所有基准测试中都比现有的免训练方法表现得更好。具体来说,当分别搭载 7B 和 34B 参数规模的 LLM 时,SF-LLaVA 分别在 MSRVTT-QA 上比 IGVLM 高出 2.1% 和 5.0%,在 TGIF-QA 上高出 5.7% 和 1.5%,在 ActivityNet-QA 上高出 2.0% 和 0.8%。

即使与经过微调的 SFT 方法相比,SF-LLaVA 在大多数基准测试中也展现了可比的性能,只有在 ActivityNet-QA 这一基准上,PLLaVA 和 LLaVA-NeXT-VideoDPO 略胜一筹。

给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

多项选择视频问答

从下表中可见,在所有基准测试中,SF-LLaVA 在多项选择视频问答的表现都优于其他免训练方法。在要求复杂长时序推理的 EgoSchema 数据集中,SF-LLaVA7B 和 34B 的版本相较 IG-VLM 模型的得分分别高出 11.4% 和 2.2%。

虽然 VideoTree 在基准测试中领先,因为它是基于 GPT-4 的专有模型,因而性能远高于开源 LLM。与 SFT 方法相比,SF-LLaVA 34B 模型在 EgoSchema 上也取得了更好的结果,这证实了 SlowFast 设计处理长视频方面的强大能力。
Text Generation 

给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

文生视频

如表 3 所示,对于文本生成视频的任务,SF-LLaVA 也显示出了一些优势。SF-LLaVA-34B 在整体表现上超越了所有免训练的基准。尽管在细节取向方面,SF-LLaVA 略逊于 LLaVA-NeXT-Image。基于 SlowFast 设计,SF-LLaVA 可以用更少的视觉 token 覆盖更长的时间上下文,因此在时间理解任务中表现得格外出色。

此外,在文生视频的表现上,SF-LLaVA-34B 也优于大多数 SFT 方法。

给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

更多细节,请参考原论文。

以上是给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

<🎜>:泡泡胶模拟器无穷大 - 如何获取和使用皇家钥匙
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系统,解释
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆树的耳语 - 如何解锁抓钩
3 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

热门话题

Java教程
1666
14
CakePHP 教程
1425
52
Laravel 教程
1328
25
PHP教程
1273
29
C# 教程
1253
24
ControlNet作者又出爆款!一张图生成绘画全过程,两天狂揽1.4k Star ControlNet作者又出爆款!一张图生成绘画全过程,两天狂揽1.4k Star Jul 17, 2024 am 01:56 AM

同样是图生视频,PaintsUndo走出了不一样的路线。ControlNet作者LvminZhang又开始整活了!这次瞄准绘画领域。新项目PaintsUndo刚上线不久,就收获1.4kstar(还在疯狂涨)。项目地址:https://github.com/lllyasviel/Paints-UNDO通过该项目,用户输入一张静态图像,PaintsUndo就能自动帮你生成整个绘画的全过程视频,从线稿到成品都有迹可循。绘制过程,线条变化多端甚是神奇,最终视频结果和原图像非常相似:我们再来看一个完整的绘

登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题 登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题 Jul 17, 2024 pm 10:02 PM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com这篇论文的作者均来自伊利诺伊大学香槟分校(UIUC)张令明老师团队,包括:StevenXia,四年级博士生,研究方向是基于AI大模型的自动代码修复;邓茵琳,四年级博士生,研究方

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」 从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智能领域的发展过程中,对大语言模型(LLM)的控制与指导始终是核心挑战之一,旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法(RL

arXiv论文可以发「弹幕」了,斯坦福alphaXiv讨论平台上线,LeCun点赞 arXiv论文可以发「弹幕」了,斯坦福alphaXiv讨论平台上线,LeCun点赞 Aug 01, 2024 pm 05:18 PM

干杯!当论文讨论细致到词句,是什么体验?最近,斯坦福大学的学生针对arXiv论文创建了一个开放讨论论坛——alphaXiv,可以直接在任何arXiv论文之上发布问题和评论。网站链接:https://alphaxiv.org/其实不需要专门访问这个网站,只需将任何URL中的arXiv更改为alphaXiv就可以直接在alphaXiv论坛上打开相应论文:可以精准定位到论文中的段落、句子:右侧讨论区,用户可以发表问题询问作者论文思路、细节,例如:也可以针对论文内容发表评论,例如:「给出至

黎曼猜想显着突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 黎曼猜想显着突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近,被称为千禧年七大难题之一的黎曼猜想迎来了新突破。黎曼猜想是数学中一个非常重要的未解决问题,与素数分布的精确性质有关(素数是那些只能被1和自身整除的数字,它们在数论中扮演着基础性的角色)。在当今的数学文献中,已有超过一千条数学命题以黎曼猜想(或其推广形式)的成立为前提。也就是说,黎曼猜想及其推广形式一旦被证明,这一千多个命题将被确立为定理,对数学领域产生深远的影响;而如果黎曼猜想被证明是错误的,那么这些命题中的一部分也将随之失去其有效性。新的突破来自MIT数学教授LarryGuth和牛津大学

OpenAI超级对齐团队遗作:两个大模型博弈一番,输出更好懂了 OpenAI超级对齐团队遗作:两个大模型博弈一番,输出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型给的答案一点也看不懂,你敢用吗?随着机器学习系统在更重要的领域得到应用,证明为什么我们可以信任它们的输出,并明确何时不应信任它们,变得越来越重要。获得对复杂系统输出结果信任的一个可行方法是,要求系统对其输出产生一种解释,这种解释对人类或另一个受信任的系统来说是可读的,即可以完全理解以至于任何可能的错误都可以被发现。例如,为了建立对司法系统的信任,我们要求法院提供清晰易读的书面意见,解释并支持其决策。对于大型语言模型来说,我们也可以采用类似的方法。不过,在采用这种方法时,确保语言模型生

LLM用于时序预测真的不行,连推理能力都没用到 LLM用于时序预测真的不行,连推理能力都没用到 Jul 15, 2024 pm 03:59 PM

语言模型真的能用于时序预测吗?根据贝特里奇头条定律(任何以问号结尾的新闻标题,都能够用「不」来回答),答案应该是否定的。事实似乎也果然如此:强大如斯的LLM并不能很好地处理时序数据。时序,即时间序列,顾名思义,是指一组按照时间发生先后顺序进行排列的数据点序列。在很多领域,时序分析都很关键,包括疾病传播预测、零售分析、医疗和金融。在时序分析领域,近期不少研究者都在研究如何使用大型语言模型(LLM)来分类、预测和检测时间序列中的异常。这些论文假设擅长处理文本中顺序依赖关系的语言模型也能泛化用于时间序

首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源 首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源 Jul 17, 2024 am 02:46 AM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显着的成功。然而,作为许多下游任务的基础模型,当前的MLLM由众所周知的Transformer网络构成,这种网

See all articles