谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA-人工智能-PHP中文网

通用视觉编码器VideoPrism

设计架构，两阶段训练法

实验结果

零样本视频文本检索和分类

零样本视频字幕和质量检查

消融研究

参考资料：

首页

科技周边

人工智能

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Feb 26, 2024 am 09:58 AM

谷歌 ai 数据集

AI视频模型Sora爆火之后，Meta、谷歌等大厂纷纷下场做研究，追赶OpenAI的步伐。

最近，来自谷歌团队的研究人员提出了一种通用视频编码器——VideoPrism。

它能够通过单一冻结模型，处理各种视频理解任务。

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA 图片

论文地址：https://arxiv.org/pdf/2402.13217.pdf

比如，VideoPrism能够将下面视频中吹蜡烛的人分类、定位出来。

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA 图片

视频-文本检索，根据文本内容，可以检索出视频中相应的内容。

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA 图片

再比如，描述下面视频——一个小女孩正在玩积木。

还可以进行QA问答。

- 她放在绿色积木块上方积木的是什么颜色？

- 紫色。

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA 图片

研究人员在一个异构语料库对VideoPrism进行了预训练，包含3600万高质量视频字幕对和5.82亿个视频剪辑，并带有噪声并行文本（如ASR转录文本）。

值得一提的是，VideoPrism在33项视频理解基准测试中，刷新了30项SOTA。

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA 图片

通用视觉编码器VideoPrism

当前，视频基础模型（ViFM）有巨大的潜力，可以在庞大的语料库中解锁新的能力。

虽然之前的研究在一般视频理解方面取得了很大进展，但构建真正的「基础视频模型」仍然是一个难以实现的目标。

对此，谷歌推出了一种通用视觉编码器——VideoPrism，旨在解决广泛的视频理解任务，包括分类、本地化、检索、字幕和问答（QA）。

VideoPrism对CV数据集，以及神经科学和生态学等科学领域的CV任务进行了广泛评估。

通过使用单一冻结模型，以最小的适应度实现了最先进的性能。

另外，谷歌研究人员称，这种冻结编码器设置同时遵循先前研究，并考虑了其实际实用性，以及高计算和微调视频模型的成本。

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA 图片

设计架构，两阶段训练法

VideoPrism背后的设计理念如下。

预训练数据是基础模型（FM）的基础，ViFM的理想预训练数据，是世界上所有视频的代表性样本。

这个样本中，大多数视频都没有描述内容的并行文本。

然而，如果训在这样的文本，它就能提供有关视频空间的无价语义线索。

因此，谷歌的预训练策略应主要关注视频模式，同时充分利用任何可用的视频文本对。

在数据方面，谷歌研究人员通过汇集3600万高质量视频字幕对，以及5.82亿视频剪辑与噪声并行文本（如ASR转录、生成的字幕和检索到的文本）来近似建立所需的预训练语料库。

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA 图片

在建模方面，作者首先从所有不同质量的视频-文本对中对比学习语义视频嵌入。

随后，利用广泛的纯视频数据，对语义嵌入进行全局和标记提炼，改进了下文所述的掩码视频建模。

尽管在自然语言方面取得了成功，但由于原始视觉信号缺乏语义，掩码数据建模对于CV来说仍然具有挑战性。

现有研究通过借用间接语义（如使用CLIP引导模型或分词器，或隐含语义来应对这一挑战）或隐性推广它们（比如标记视觉patches），将高掩码率和轻量级解码器结合。

在上述想法的基础上，谷歌团队根据预训练数据采用了两阶段方法。

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA 图片

在第一阶段，进行对比学习，使用所有视频文本对，将视频编码器与文本编码器对齐。

根据先前的研究，谷歌团队最小化批中所有视频文本对的相似性得分，进行对称交叉熵损失最小化。

并使用 CoCa 的图像模型初始化空间编码模块，并将WebLI纳入到预训练中。

在计算损失之前，视频编码器的特征会通过多头注意力汇集池（MAP）进行聚合。

这一阶段允许视频编码器从语言监督中学习丰富的视觉语义，由此产生的模型为第二阶段训练提供语义视频嵌入。

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA 图片

第二阶段，继续训练编码器，并进行了两项改进：

- 模型需要根据未掩码的输入视频patches，来预测第一阶段的视频级全局嵌入和token式嵌入

- 编码器的输出token在传给解码器之前，要进行随机洗牌，以避免学习捷径。

值得注意的是，研究人员的预训练利用了两个监督信号：视频的文本描述，以及上下文自监督，使VideoPrism能够在以外观和动作为中心的任务上表现出色。

事实上，之前的研究表明，视频字幕主要揭示外观线索，而上下文我监督有助于学习动作。

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA 图片

实验结果

接下来，研究人员在广泛的以视频为中心的理解任务上评估VideoPrism，展现其能力和通用性。

主要分为以下四类：

(1) 一般仅视频理解，包括分类和时空定位

(2) 零样本视频文本检索

(3) 零样本视频字幕和质量检查

(4) 科学领域的CV任务

分类和时空定位

表2显示了VideoGLUE上的冻结骨干的结果。

在所有数据集上，VideoPrism都大幅优于基线。此外，将VideoPrism的底层模型大小从ViT-B增加到ViT-g可以显着提高性能。

值得注意的是，没有基线方法能在所有基准测试中取得第二好的成绩，这表明以前的方法可能是针对视频理解的某些方面而开发的。

而VideoPrism在这一广泛的任务上持续改进。

这一结果表明，VideoPrism将各种视频信号整合到了一个编码器中：多种粒度的语义、外观与运动线索、时空信息以及对不同视频源（如网络视频与脚本表演）的鲁棒性。

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA 图片

零样本视频文本检索和分类

表3和表4分别总结了视频文本检索和视频分类的结果。

VideoPrism的性能刷新多项基准，而且在具有挑战性的数据集上，VideoPrism 与之前的技术相比取得了非常显着的进步。

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA 图片

基础模型VideoPrism-B 的大多数结果，实际上优于现有的更大规模模型。

此外，VideoPrism与表4中使用域内数据和额外模态（例如音频）预训练的模型相当，甚至更好。这些在零样本检索和分类任务中的改进体现了VideoPrism强大的泛化能力。

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA 图片

零样本视频字幕和质量检查

表5和表6分别显示了，零样本视频字幕和QA的结果。

尽管模型架构简单且适配器参数数量较少，但最新模型仍具有竞争力，除VATEX外，在冻结视觉和语言模型的方法中名列前茅。

结果表明，VideoPrism编码器能够很好地推广到视频到语言的生成任务。

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA 图片

科学领域的CV任务

通用ViFM在所有评估中使用共享的冻结编码器，其性能与专门用于单个任务的特定领域模型相媲美。

尤其是，VideoPrism通常表现最好，并超越了具有基本规模模型的领域专家模型。

扩展到大规模模型可以进一步提高所有数据集的性能。这些结果表明ViFM有潜力显着加速不同领域的视频分析。

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA

消融研究

图4显示了消融结果。值得注意的是，VideoPrism在SSv2上的持续改进表明，数据管理和模型设计工作在促进视频中的运动理解方面的有效性。

尽管对比基线已经在K400上取得了有竞争力的结果，但所提出的全局蒸馏和token洗牌进一步提高了准确性。

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA 图片

参考资料：

https://arxiv.org/pdf/2402.13217.pdf

https://blog.research.google/2024/02/videoprism-foundational-visual- encoder.html

以上是谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7530

CakePHP 教程

1378

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

Debian邮件服务器防火墙配置技巧 Apr 13, 2025 am 11:42 AM

配置Debian邮件服务器的防火墙是确保服务器安全性的重要步骤。以下是几种常用的防火墙配置方法，包括iptables和firewalld的使用。使用iptables配置防火墙安装iptables（如果尚未安装）：sudoapt-getupdatesudoapt-getinstalliptables查看当前iptables规则：sudoiptables-L配置

Debian Apache日志级别如何设置 Apr 13, 2025 am 08:33 AM

本文介绍如何在Debian系统中调整ApacheWeb服务器的日志记录级别。通过修改配置文件，您可以控制Apache记录的日志信息的详细程度。方法一：修改主配置文件定位配置文件:Apache2.x的配置文件通常位于/etc/apache2/目录下，文件名可能是apache2.conf或httpd.conf，具体取决于您的安装方式。编辑配置文件:使用文本编辑器（例如nano）以root权限打开配置文件：sudonano/etc/apache2/apache2.conf

如何优化debian readdir的性能 Apr 13, 2025 am 08:48 AM

在Debian系统中，readdir系统调用用于读取目录内容。如果其性能表现不佳，可尝试以下优化策略：精简目录文件数量:尽可能将大型目录拆分成多个小型目录，降低每次readdir调用处理的项目数量。启用目录内容缓存:构建缓存机制，定期或在目录内容变更时更新缓存，减少对readdir的频繁调用。内存缓存（如Memcached或Redis）或本地缓存（如文件或数据库）均可考虑。采用高效数据结构:如果自行实现目录遍历，选择更高效的数据结构（例如哈希表而非线性搜索）存储和访问目录信

debian readdir如何与其他工具集成 Apr 13, 2025 am 09:42 AM

Debian系统中的readdir函数是用于读取目录内容的系统调用，常用于C语言编程。本文将介绍如何将readdir与其他工具集成，以增强其功能。方法一：C语言程序与管道结合首先，编写一个C程序调用readdir函数并输出结果：#include#include#includeintmain(intargc,char*argv[]){DIR*dir;structdirent*entry;if(argc!=2){

debian readdir如何实现文件排序 Apr 13, 2025 am 09:06 AM

在Debian系统中，readdir函数用于读取目录内容，但其返回的顺序并非预先定义的。要对目录中的文件进行排序，需要先读取所有文件，再利用qsort函数进行排序。以下代码演示了如何在Debian系统中使用readdir和qsort对目录文件进行排序：#include#include#include#include//自定义比较函数，用于qsortintcompare(constvoid*a,constvoid*b){returnstrcmp(*(

Debian邮件服务器SSL证书安装方法 Apr 13, 2025 am 11:39 AM

在Debian邮件服务器上安装SSL证书的步骤如下：1.安装OpenSSL工具包首先，确保你的系统上已经安装了OpenSSL工具包。如果没有安装，可以使用以下命令进行安装：sudoapt-getupdatesudoapt-getinstallopenssl2.生成私钥和证书请求接下来，使用OpenSSL生成一个2048位的RSA私钥和一个证书请求（CSR）：openss

Debian OpenSSL如何进行数字签名验证 Apr 13, 2025 am 11:09 AM

在Debian系统上使用OpenSSL进行数字签名验证，可以按照以下步骤操作：准备工作安装OpenSSL：确保你的Debian系统已经安装了OpenSSL。如果没有安装，可以使用以下命令进行安装：sudoaptupdatesudoaptinstallopenssl获取公钥：数字签名验证需要使用签名者的公钥。通常，公钥会以文件的形式提供，例如public_key.pe

Debian OpenSSL如何防止中间人攻击 Apr 13, 2025 am 10:30 AM

在Debian系统中，OpenSSL是一个重要的库，用于加密、解密和证书管理。为了防止中间人攻击（MITM），可以采取以下措施：使用HTTPS：确保所有网络请求使用HTTPS协议，而不是HTTP。HTTPS使用TLS（传输层安全协议）加密通信数据，确保数据在传输过程中不会被窃取或篡改。验证服务器证书：在客户端手动验证服务器证书，确保其可信。可以通过URLSession的委托方法来手动验证服务器

See all articles

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA

通用视觉编码器VideoPrism

设计架构，两阶段训练法

实验结果

零样本视频文本检索和分类

零样本视频字幕和质量检查

消融研究

参考资料：

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题