目录
通用视觉编码器VideoPrism
设计架构,两阶段训练法
实验结果
零样本视频文本检索和分类
零样本视频字幕和质量检查
消融研究
参考资料:
首页 科技周边 人工智能 谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA

谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA

Feb 26, 2024 am 09:58 AM
谷歌 ai 数据集

AI视频模型Sora爆火之后,Meta、谷歌等大厂纷纷下场做研究,追赶OpenAI的步伐。

最近,来自谷歌团队的研究人员提出了一种通用视频编码器——VideoPrism。

它能够通过单一冻结模型,处理各种视频理解任务。

谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA图片

论文地址:https://arxiv.org/pdf/2402.13217.pdf

比如,VideoPrism能够将下面视频中吹蜡烛的人分类、定位出来。

谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA图片

视频-文本检索,根据文本内容,可以检索出视频中相应的内容。

谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA图片

再比如,描述下面视频——一个小女孩正在玩积木。

还可以进行QA问答。

- 她放在绿色积木块上方积木的是什么颜色?

- 紫色。

谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA图片

研究人员在一个异构语料库对VideoPrism进行了预训练,包含3600万高质量视频字幕对和5.82亿个视频剪辑,并带有噪声并行文本(如ASR转录文本)。

值得一提的是,VideoPrism在33项视频理解基准测试中,刷新了30项SOTA。

谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA图片

通用视觉编码器VideoPrism

当前,视频基础模型(ViFM)有巨大的潜力,可以在庞大的语料库中解锁新的能力。

虽然之前的研究在一般视频理解方面取得了很大进展,但构建真正的「基础视频模型」仍然是一个难以实现的目标。

对此,谷歌推出了一种通用视觉编码器——VideoPrism,旨在解决广泛的视频理解任务,包括分类、本地化、检索、字幕和问答(QA)。

VideoPrism对CV数据集,以及神经科学和生态学等科学领域的CV任务进行了广泛评估。

通过使用单一冻结模型,以最小的适应度实现了最先进的性能。

另外,谷歌研究人员称,这种冻结编码器设置同时遵循先前研究,并考虑了其实际实用性,以及高计算和微调视频模型的成本。

谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA图片

设计架构,两阶段训练法

VideoPrism背后的设计理念如下。

预训练数据是基础模型(FM)的基础,ViFM的理想预训练数据,是世界上所有视频的代表性样本。

这个样本中,大多数视频都没有描述内容的并行文本。

然而,如果训在这样的文本,它就能提供有关视频空间的无价语义线索。

因此,谷歌的预训练策略应主要关注视频模式,同时充分利用任何可用的视频文本对。

在数据方面,谷歌研究人员通过汇集3600万高质量视频字幕对,以及5.82亿视频剪辑与噪声并行文本(如ASR转录、生成的字幕和检索到的文本)来近似建立所需的预训练语料库。

谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA图片

谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA图片

在建模方面,作者首先从所有不同质量的视频-文本对中对比学习语义视频嵌入。

随后,利用广泛的纯视频数据,对语义嵌入进行全局和标记提炼,改进了下文所述的掩码视频建模。

尽管在自然语言方面取得了成功,但由于原始视觉信号缺乏语义,掩码数据建模对于CV来说仍然具有挑战性。

现有研究通过借用间接语义(如使用CLIP引导模型或分词器,或隐含语义来应对这一挑战)或隐性推广它们(比如标记视觉patches),将高掩码率和轻量级解码器结合。

在上述想法的基础上,谷歌团队根据预训练数据采用了两阶段方法。

谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA图片

在第一阶段,进行对比学习,使用所有视频文本对,将视频编码器与文本编码器对齐。

根据先前的研究,谷歌团队最小化批中所有视频文本对的相似性得分,进行对称交叉熵损失最小化。

并使用 CoCa 的图像模型初始化空间编码模块,并将WebLI纳入到预训练中。

在计算损失之前,视频编码器的特征会通过多头注意力汇集池(MAP)进行聚合。

这一阶段允许视频编码器从语言监督中学习丰富的视觉语义,由此产生的模型为第二阶段训练提供语义视频嵌入。

谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA图片

第二阶段,继续训练编码器,并进行了两项改进:

- 模型需要根据未掩码的输入视频patches,来预测第一阶段的视频级全局嵌入和token式嵌入

- 编码器的输出token在传给解码器之前,要进行随机洗牌,以避免学习捷径。

值得注意的是,研究人员的预训练利用了两个监督信号:视频的文本描述,以及上下文自监督,使VideoPrism能够在以外观和动作为中心的任务上表现出色。

事实上,之前的研究表明,视频字幕主要揭示外观线索,而上下文我监督有助于学习动作。

谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA图片

实验结果

接下来,研究人员在广泛的以视频为中心的理解任务上评估VideoPrism,展现其能力和通用性。

主要分为以下四类:

(1) 一般仅视频理解,包括分类和时空定位

(2) 零样本视频文本检索

(3) 零样本视频字幕和质量检查

(4) 科学领域的CV任务

分类和时空定位

表2显示了VideoGLUE上的冻结骨干的结果。

在所有数据集上,VideoPrism都大幅优于基线。此外,将VideoPrism的底层模型大小从ViT-B增加到ViT-g可以显着提高性能。

值得注意的是,没有基线方法能在所有基准测试中取得第二好的成绩,这表明以前的方法可能是针对视频理解的某些方面而开发的。

而VideoPrism在这一广泛的任务上持续改进。

这一结果表明,VideoPrism将各种视频信号整合到了一个编码器中:多种粒度的语义、外观与运动线索、时空信息以及对不同视频源(如网络视频与脚本表演)的鲁棒性。

谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA图片

零样本视频文本检索和分类

表3和表4分别总结了视频文本检索和视频分类的结果。

VideoPrism的性能刷新多项基准,而且在具有挑战性的数据集上,VideoPrism 与之前的技术相比取得了非常显着的进步。

谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA图片

基础模型VideoPrism-B 的大多数结果,实际上优于现有的更大规模模型。

此外,VideoPrism与表4中使用域内数据和额外模态(例如音频)预训练的模型相当,甚至更好。这些在零样本检索和分类任务中的改进体现了VideoPrism强大的泛化能力。

谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA图片

零样本视频字幕和质量检查

表5和表6分别显示了,零样本视频字幕和QA的结果。

尽管模型架构简单且适配器参数数量较少,但最新模型仍具有竞争力,除VATEX外,在冻结视觉和语言模型的方法中名列前茅。

结果表明,VideoPrism编码器能够很好地推广到视频到语言的生成任务。

谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA图片

科学领域的CV任务

通用ViFM在所有评估中使用共享的冻结编码器,其性能与专门用于单个任务的特定领域模型相媲美。

尤其是,VideoPrism通常表现最好,并超越了具有基本规模模型的领域专家模型。

扩展到大规模模型可以进一步提高所有数据集的性能。这些结果表明ViFM有潜力显着加速不同领域的视频分析。

谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA

消融研究

图4显示了消融结果。值得注意的是,VideoPrism在SSv2上的持续改进表明,数据管理和模型设计工作在促进视频中的运动理解方面的有效性。

尽管对比基线已经在K400上取得了有竞争力的结果,但所提出的全局蒸馏和token洗牌进一步提高了准确性。

谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA图片

参考资料:

https://arxiv.org/pdf/2402.13217.pdf

https://blog.research.google/2024/02/videoprism-foundational-visual- encoder.html

以上是谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它们
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

Debian邮件服务器防火墙配置技巧 Debian邮件服务器防火墙配置技巧 Apr 13, 2025 am 11:42 AM

配置Debian邮件服务器的防火墙是确保服务器安全性的重要步骤。以下是几种常用的防火墙配置方法,包括iptables和firewalld的使用。使用iptables配置防火墙安装iptables(如果尚未安装):sudoapt-getupdatesudoapt-getinstalliptables查看当前iptables规则:sudoiptables-L配置

Debian Apache日志级别如何设置 Debian Apache日志级别如何设置 Apr 13, 2025 am 08:33 AM

本文介绍如何在Debian系统中调整ApacheWeb服务器的日志记录级别。通过修改配置文件,您可以控制Apache记录的日志信息的详细程度。方法一:修改主配置文件定位配置文件:Apache2.x的配置文件通常位于/etc/apache2/目录下,文件名可能是apache2.conf或httpd.conf,具体取决于您的安装方式。编辑配置文件:使用文本编辑器(例如nano)以root权限打开配置文件:sudonano/etc/apache2/apache2.conf

如何优化debian readdir的性能 如何优化debian readdir的性能 Apr 13, 2025 am 08:48 AM

在Debian系统中,readdir系统调用用于读取目录内容。如果其性能表现不佳,可尝试以下优化策略:精简目录文件数量:尽可能将大型目录拆分成多个小型目录,降低每次readdir调用处理的项目数量。启用目录内容缓存:构建缓存机制,定期或在目录内容变更时更新缓存,减少对readdir的频繁调用。内存缓存(如Memcached或Redis)或本地缓存(如文件或数据库)均可考虑。采用高效数据结构:如果自行实现目录遍历,选择更高效的数据结构(例如哈希表而非线性搜索)存储和访问目录信

debian readdir如何与其他工具集成 debian readdir如何与其他工具集成 Apr 13, 2025 am 09:42 AM

Debian系统中的readdir函数是用于读取目录内容的系统调用,常用于C语言编程。本文将介绍如何将readdir与其他工具集成,以增强其功能。方法一:C语言程序与管道结合首先,编写一个C程序调用readdir函数并输出结果:#include#include#includeintmain(intargc,char*argv[]){DIR*dir;structdirent*entry;if(argc!=2){

debian readdir如何实现文件排序 debian readdir如何实现文件排序 Apr 13, 2025 am 09:06 AM

在Debian系统中,readdir函数用于读取目录内容,但其返回的顺序并非预先定义的。要对目录中的文件进行排序,需要先读取所有文件,再利用qsort函数进行排序。以下代码演示了如何在Debian系统中使用readdir和qsort对目录文件进行排序:#include#include#include#include//自定义比较函数,用于qsortintcompare(constvoid*a,constvoid*b){returnstrcmp(*(

Debian邮件服务器SSL证书安装方法 Debian邮件服务器SSL证书安装方法 Apr 13, 2025 am 11:39 AM

在Debian邮件服务器上安装SSL证书的步骤如下:1.安装OpenSSL工具包首先,确保你的系统上已经安装了OpenSSL工具包。如果没有安装,可以使用以下命令进行安装:sudoapt-getupdatesudoapt-getinstallopenssl2.生成私钥和证书请求接下来,使用OpenSSL生成一个2048位的RSA私钥和一个证书请求(CSR):openss

Debian OpenSSL如何进行数字签名验证 Debian OpenSSL如何进行数字签名验证 Apr 13, 2025 am 11:09 AM

在Debian系统上使用OpenSSL进行数字签名验证,可以按照以下步骤操作:准备工作安装OpenSSL:确保你的Debian系统已经安装了OpenSSL。如果没有安装,可以使用以下命令进行安装:sudoaptupdatesudoaptinstallopenssl获取公钥:数字签名验证需要使用签名者的公钥。通常,公钥会以文件的形式提供,例如public_key.pe

Debian OpenSSL如何防止中间人攻击 Debian OpenSSL如何防止中间人攻击 Apr 13, 2025 am 10:30 AM

在Debian系统中,OpenSSL是一个重要的库,用于加密、解密和证书管理。为了防止中间人攻击(MITM),可以采取以下措施:使用HTTPS:确保所有网络请求使用HTTPS协议,而不是HTTP。HTTPS使用TLS(传输层安全协议)加密通信数据,确保数据在传输过程中不会被窃取或篡改。验证服务器证书:在客户端手动验证服务器证书,确保其可信。可以通过URLSession的委托方法来手动验证服务器

See all articles