CLIP当RNN用入选CVPR：无需训练即可分割无数概念｜牛津大学&谷歌研究院-人工智能-PHP中文网

受RNN启发，循环调用CLIP

CaR技术细节

首页

科技周边

人工智能

CLIP当RNN用入选CVPR：无需训练即可分割无数概念｜牛津大学&谷歌研究院

PHPz

Jun 09, 2024 pm 12:53 PM

神经网络 clip CaR技术

循环调用CLIP，无需额外训练就有效分割无数概念。

包括电影动漫人物，地标，品牌，和普通类别在内的任意短语。

CLIP当RNN用入选CVPR：无需训练即可分割无数概念｜牛津大学&谷歌研究院

牛津大学与谷歌研究院联合团队的这项新成果，已被CVPR 2024接收，并开源了代码。

CLIP当RNN用入选CVPR：无需训练即可分割无数概念｜牛津大学&谷歌研究院

团队提出名为CLIP as RNN（简称CaR）的新技术，解决了开放词汇量图像分割领域中的几个关键问题：

无需训练数据：传统方法需要大量的掩膜注释或图像-文本数据集进行微调，CaR技术则无需任何额外的训练数据即可工作。
开放词汇量的限制：预训练的视觉-语言模型（VLMs）在经过微调后，其处理开放词汇量的能力受到限制。CaR技术保留了VLMs的广泛词汇空间。
对非图像中概念的文本查询处理：在没有微调的情况下，VLMs难以对图像中不存在的概念进行准确分割，CaR通过迭代过程逐步优化，提高了分割质量。

受RNN启发，循环调用CLIP

要理解CaR的原理，需要先回顾一下循环神经网络RNN。

RNN引入了隐藏状态（hidden state）的概念，就像是一个“记忆体”，存储了过去时间步的信息。而每个时间步共享同一组权重，可以很好地建模序列数据。

受RNN启发，CaR也设计成循环的框架，由两部分组成：

掩膜提议生成器：借助CLIP为每个文本查询生成一个mask。
掩膜分类器：再用一个CLIP模型，评估生成的每个mask和对应的文本查询的匹配度。如果匹配度低，就把那个文本查询剔除掉。

就这样反复迭代下去，文本查询会越来越精准，mask的质量也会越来越高。

最后当查询集合不再变化，就可以输出最终的分割结果了。

CLIP当RNN用入选CVPR：无需训练即可分割无数概念｜牛津大学&谷歌研究院

之所以要设计这个递归框架，是为了最大限度地保留CLIP预训练的”知识”。

CLIP预训练中见过的概念可是海量，涵盖了从名人、地标到动漫角色等方方面面。如果在分割数据集上微调，词汇量势必会大幅缩水。

例如“分割一切”SAM模型就只能认出一瓶可口可乐，百事可乐是一瓶也不认了。

CLIP当RNN用入选CVPR：无需训练即可分割无数概念｜牛津大学&谷歌研究院

但是直接拿CLIP做分割，效果又不尽如人意。

这是因为CLIP的预训练目标本来就不是为密集预测设计的。尤其是当图像中不存在某些文本查询时，CLIP很容易生成一些错误的mask。

CaR巧妙地通过RNN式的迭代来解决这个问题。通过反复评估、筛选查询，同时完善mask，最终实现了高质量的开放词汇分割。

最后再来跟随团队的解读，了解一下CaR框架的细节。

CaR技术细节

CLIP当RNN用入选CVPR：无需训练即可分割无数概念｜牛津大学&谷歌研究院

循环神经网络框架：CaR采用了一个新颖的循环框架，通过迭代过程不断优化文本查询与图像之间的对应关系。
两阶段分割器：由掩膜提议生成器和掩膜分类器组成，均基于预训练的CLIP模型构建，且权重在迭代过程中保持不变。
掩膜提议生成：使用gradCAM技术，基于图像和文本特征的相似度得分来生成掩膜提议。
视觉提示：应用如红圈、背景模糊等视觉提示，以增强模型对图像特定区域的关注。
阈值函数：通过设置相似度阈值，筛选出与文本查询对齐程度高的掩膜提议。
后处理：使用密集条件随机场（CRF）和可选的SAM模型进行掩膜细化。

通过这些技术手段，CaR技术在多个标准数据集上实现了显着的性能提升，超越了传统的零样本学习方法，并在与进行了大量数据微调的模型相比时也展现出了竞争力。如下表所示，尽管完全无需额外训练及微调，CaR在零样本语义分割的8个不同指标上表现出比之前在额外数据上进行微调过的方法更强的性能。

CLIP当RNN用入选CVPR：无需训练即可分割无数概念｜牛津大学&谷歌研究院

作者还测试了CaR在零样本Refering segmentation的效果，CaR也表现出了相较之前零样本的方法表现出更强的性能。

CLIP当RNN用入选CVPR：无需训练即可分割无数概念｜牛津大学&谷歌研究院

综上所述，CaR（CLIP as RNN）是一种创新的循环神经网络框架，能够在无需额外训练数据的情况下，有效地进行零样本语义和指代图像分割任务。它通过保留预训练视觉-语言模型的广泛词汇空间，并利用迭代过程不断优化文本查询与掩膜提议的对齐度，显着提升了分割质量。

CaR的优势在于其无需微调、处理复杂文本查询的能力和对视频领域的扩展性，为开放词汇量图像分割领域带来了突破性进展。

论文链接：https://arxiv.org/abs/2312.07661。
项目主页：https://torrvision.com/clip_as_rnn/。

以上是CLIP当RNN用入选CVPR：无需训练即可分割无数概念｜牛津大学&谷歌研究院的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

Java教程

1673

CakePHP 教程

1429

Laravel 教程

1333

PHP教程

1278

C# 教程

1257

显示更多

Related knowledge

GNN的基础、前沿和应用 Apr 11, 2023 pm 11:40 PM

近年来，图神经网络（GNN）取得了快速、令人难以置信的进展。图神经网络又称为图深度学习、图表征学习（图表示学习）或几何深度学习，是机器学习特别是深度学习领域增长最快的研究课题。本次分享的题目为《GNN的基础、前沿和应用》，主要介绍由吴凌飞、崔鹏、裴健、赵亮几位学者牵头编撰的综合性书籍《图神经网络基础、前沿与应用》中的大致内容。一、图神经网络的介绍1、为什么要研究图？图是一种描述和建模复杂系统的通用语言。图本身并不复杂，它主要由边和结点构成。我们可以用结点表示任何我们想要建模的物体，可以用边表示两

YOLO不死！YOLOv9出炉：性能速度SOTA~ Feb 26, 2024 am 11:31 AM

如今的深度学习方法专注于设计最适合的目标函数，以使模型的预测结果与实际情况最接近。同时，必须设计一个合适的架构，以便为预测获取足够的信息。现有方法忽略了一个事实，即当输入数据经过逐层特征提取和空间变换时，大量信息将会丢失。本文将深入探讨数据通过深度网络传输时的重要问题，即信息瓶颈和可逆函数。基于此提出了可编程梯度信息（PGI）的概念，以应对深度网络实现多目标所需的各种变化。PGI可以为目标任务提供完整的输入信息，以计算目标函数，从而获得可靠的梯度信息以更新网络权重。此外设计了一种新的轻量级网络架

一文通览自动驾驶三大主流芯片架构 Apr 12, 2023 pm 12:07 PM

当前主流的AI芯片主要分为三类，GPU、FPGA、ASIC。GPU、FPGA均是前期较为成熟的芯片架构，属于通用型芯片。ASIC属于为AI特定场景定制的芯片。行业内已经确认CPU不适用于AI计算，但是在AI应用领域也是必不可少。 GPU方案GPU与CPU的架构对比CPU遵循的是冯·诺依曼架构，其核心是存储程序/数据、串行顺序执行。因此CPU的架构中需要大量的空间去放置存储单元（Cache）和控制单元（Control），相比之下计算单元（ALU）只占据了很小的一部分，所以CPU在进行大规模并行计算

"B站UP主成功打造全球首个基于红石的神经网络在社交媒体引起轰动，得到Yann LeCun的点赞赞赏" May 07, 2023 pm 10:58 PM

在我的世界（Minecraft）中，红石是一种非常重要的物品。它是游戏中的一种独特材料，开关、红石火把和红石块等能对导线或物体提供类似电流的能量。红石电路可以为你建造用于控制或激活其他机械的结构，其本身既可以被设计为用于响应玩家的手动激活，也可以反复输出信号或者响应非玩家引发的变化，如生物移动、物品掉落、植物生长、日夜更替等等。因此，在我的世界中，红石能够控制的机械类别极其多，小到简单机械如自动门、光开关和频闪电源，大到占地巨大的电梯、自动农场、小游戏平台甚至游戏内建的计算机。近日，B站UP主@

1.3ms耗时！清华最新开源移动端神经网络架构 RepViT Mar 11, 2024 pm 12:07 PM

论文地址：https://arxiv.org/abs/2307.09283代码地址：https://github.com/THU-MIG/RepViTRepViT在移动端ViT架构中表现出色，展现出显着的优势。接下来，我们将探讨本研究的贡献所在。文中提到，轻量级ViTs通常比轻量级CNNs在视觉任务上表现得更好，这主要归功于它们的多头自注意力模块(MSHA)可以让模型学习全局表示。然而，轻量级ViTs和轻量级CNNs之间的架构差异尚未得到充分研究。在这项研究中，作者们通过整合轻量级ViTs的有效

多路径多领域通吃！谷歌AI发布多领域学习通用模型MDL May 28, 2023 pm 02:12 PM

面向视觉任务（如图像分类）的深度学习模型，通常用来自单一视觉域（如自然图像或计算机生成的图像）的数据进行端到端的训练。一般情况下，一个为多个领域完成视觉任务的应用程序需要为每个单独的领域建立多个模型，分别独立训练，不同领域之间不共享数据，在推理时，每个模型将处理特定领域的输入数据。即使是面向不同领域，这些模型之间的早期层的有些特征都是相似的，所以，对这些模型进行联合训练的效率更高。这能减少延迟和功耗，降低存储每个模型参数的内存成本，这种方法被称为多领域学习（MDL）。此外，MDL模型也可以优于单

扛住强风的无人机？加州理工用12分钟飞行数据教会无人机御风飞行 Apr 09, 2023 pm 11:51 PM

当风大到可以把伞吹坏的程度，无人机却稳稳当当，就像这样：御风飞行是空中飞行的一部分，从大的层面来讲，当飞行员驾驶飞机着陆时，风速可能会给他们带来挑战；从小的层面来讲，阵风也会影响无人机的飞行。目前来看，无人机要么在受控条件下飞行，无风；要么由人类使用遥控器操作。无人机被研究者控制在开阔的天空中编队飞行，但这些飞行通常是在理想的条件和环境下进行的。然而，要想让无人机自主执行必要但日常的任务，例如运送包裹，无人机必须能够实时适应风况。为了让无人机在风中飞行时具有更好的机动性，来自加州理工学院的一组工

对比学习算法在转转的实践 Apr 11, 2023 pm 09:25 PM

1 什么是对比学习1.1 对比学习的定义1.2 对比学习的原理1.3 经典对比学习算法系列2 对比学习的应用3 对比学习在转转的实践3.1 CL在推荐召回的实践3.2 CL在转转的未来规划1 什么是对比学习1.1 对比学习的定义对比学习（Contrastive Learning, CL）是近年来 AI 领域的热门研究方向，吸引了众多研究学者的关注，其所属的自监督学习方式，更是在 ICLR 2020 被 Bengio 和 LeCun 等大佬点名称为 AI 的未来，后陆续登陆 NIPS, ACL,

See all articles

CLIP当RNN用入选CVPR：无需训练即可分割无数概念｜牛津大学&谷歌研究院

受RNN启发，循环调用CLIP

CaR技术细节

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题