马毅教授新作:白盒ViT成功实现「分割涌现」,经验深度学习时代即将结束?
基于Transformer的视觉基础模型在各种下游任务,如分割和检测中都展现出了非常强大的性能,并且DINO等模型经过自监督训练后已经涌现出了语义的分割属性。
视觉Transformer模型经过有监督分类训练后,并没有出现类似的涌现能力,这一点令人感到奇怪
最近,马毅教授的团队研究了基于Transformer架构的模型,以探索涌现分割能力是否仅仅是复杂的自监督学习机制所导致的结果,或者是否可以通过适当设计模型架构,在更通用的条件下实现相同的涌现
代码链接:https://github.com/Ma-Lab-Berkeley/CRATE
请点击以下链接查看论文:https://arxiv.org/abs/2308.16271
经过大量实验,研究人员证明了使用白盒Transformer模型CRATE时,其设计明确地模拟并追求数据分布中的低维结构,以最小化的监督训练配方出现整体和部分级别的分割属性
通过分层的细粒度分析,我们得出了一个重要结论:涌现属性有力地证实了白盒网络的设计数学功能。基于这一结果,我们提出了一种设计白盒基础模型的方法,该模型不仅具有高性能,而且在数学上完全可解释
马毅教授也表示,深度学习的研究将会逐渐从经验设计转向理论指导。
白盒CRATE的涌现属性
DINO的分割涌现能力指的是DINO模型在处理语言任务时,能够将输入的句子分割成更小的片段,并对每个片段进行独立的处理。这种能力使得DINO模型能够更好地理解复杂的句子结构和语义信息,从而提高其在自然语言处理领域的性能
智能系统中的表征学习旨在将世界的高维、多模态感官数据(图像、语言、语音)转换为更紧凑的形式,同时保留其基本的低维结构,实现高效的识别(比如分类)、分组(比如分割)和追踪。
深度学习模型的训练通常采用数据驱动的方式,通过输入大规模数据,以自监督的方式进行学习
在视觉基础模型中,DINO模型展现了令人惊讶的涌现能力,即使没有经过有监督分割训练,ViTs也能识别出显式的语义分割信息。自监督Transformer架构的DINO模型在这方面表现出色
后续有工作研究了如何在DINO模型中利用这种分割信息,并在下游任务中,如分割、检测等实现了最先进的性能,也有工作证明了用DINO训练的ViTs中的倒数第二层特征与视觉输入中的显著性信息强烈相关,如区分前景、背景和物体边界,从而提升图像分割和其他任务的性能。
为了让分割属性得以凸显,DINO需要在训练过程中巧妙地结合自监督学习、知识蒸馏和权重平均的方法
目前还不清楚DINO中引入的每个组件是否对于分割遮罩的涌现来说必不可缺,尽管DINO也采用ViT架构作为其主干,但在分类任务上训练的普通有监督ViT模型中,并没有观察到分割涌现行为。
CRATE的涌现
基于DINO的成功案例,研究人员想要探究,复杂的自监督学习管道对于获得类似Transformer的视觉模型中的涌现属性是否是必要的。
研究人员认为,在Transformer模型中促进分割属性的一种有前途的方法是,在考虑输入数据结构的情况下设计Transformer模型架构,也代表了表征学习经典方法与现代数据驱动的深度学习框架的结合。
与目前主流的Transformer模型对比,这种设计方法也可以叫做白盒Transformer模型。
基于马毅教授组之前的工作,研究人员对白盒架构的CRATE模型进行了广泛的实验,证明了CRATE的白盒设计是自注意力图中分割属性涌现的原因。
需要进行重新表述的内容是:定性评估
研究人员使用基于[CLS] token的注意力图方法对模型进行解释和可视化,发现CRATE中的查询-键-值矩阵都是相同的
可以观察到CRATE模型的自注意力图(self-attention map)可以对应到输入图像的语义上,模型的内部网络对每个图像都进行了清晰的语义分割,实现了类似DINO模型的效果。
普通的ViT在有监督分类任务上训练时,并没有展示出类似的分割属性
根据之前关于可视化图像学习逐块深度特征的研究,研究人员对CRATE和ViT模型的深度token表征进行了主成分分析(PCA)研究
可以发现,CRATE可以在没有分割监督训练的情况下,依然可以捕捉到图像中物体的边界。
而且,主要成分(principal components)还表明了token和物体之间相似部分的特征对齐,比如红色通道对应马腿
而有监督ViT模型的PCA可视化结构化程度相当低。
定量评估
研究人员对CRATE涌现的分割属性进行评估时,使用了现有的分割和对象检测技术
从自注意力图可以看到,CRATE用清晰的边界显式地捕获了对象级的语义,为了定量测量分割的质量,研究人员利用自注意力图生成分割遮罩(segmentation mask),对比其与真实遮罩之间的标准mIoU(平均交并比)。
通过实验结果可以看出,CRATE在视觉和mIOU评分方面明显优于ViT,这表明CRATE的内部表示对于生成分割遮罩任务更有效
对象检测和细粒度分割
为了进一步验证和评估CRATE捕获的丰富语义信息,研究人员采用了一种高效的对象检测和分割方法MaskCut,无需人工标注即可获得自动化评估模型,可以基于CRATE学到的token表征从图像中提取更细粒度的分割。
在COCO val2017上的分割结果中可以看到,有CRATE的内部表征在检测和分割指标上都要好于有监督ViT,有监督ViT特征的MaskCut在某些情况下甚至完全不能产生分割遮罩。
CRATE分割能力的白盒分析
CRATE中深度的作用
CRATE的每一层设计都遵循相同的概念目的:优化稀疏速率降低,并将token分布转换为紧凑和结构化的形式。 重写后:CRATE的每个层次的设计都遵循相同的理念:优化稀疏速率的降低,并将token的分布转化为紧凑且结构化的形式
假设CRATE中语义分割能力的涌现类似于「表征Z中属于相似语义类别token的聚类」,预期CRATE的分割性能可以随着深度的增加而提高。
为了测试这一点,研究人员利用MaskCut管道来定量评估跨不同层的内部表征的分割性能;同时应用PCA可视化来理解分割是如何随深度加深而涌现的。
从实验结果中可以观察到,当使用来自更深层的表征时,分割分数提高了,与CRATE的增量优化设计非常一致。
相比之下,即使ViT-B/8的性能在后面的层中略有提高,但其分割分数明显低于CRATE,PCA结果显示,从CRATE深层提取的表征会逐渐更关注前景对象,并且能够捕捉纹理级别的细节。
CRATE的熔化实验
CRATE中的注意力块(MSSA)和MLP块(ISTA)与ViT中的注意力块有所不同
为了研究每个组件对CRATE涌现分割属性的影响,研究人员选择了三个CRATE变体:CRATE,CRATE-MHSA,CRATE-MLP。这些变体分别代表了ViT中的注意块(MHSA)和MLP块
研究人员在ImageNet-21k数据集上应用相同的预训练设置,然后应用粗分割评估和遮罩分割评估来定量对比不同模型的性能。
根据实验结果显示,CRATE在所有任务中明显优于其他模型架构。值得注意的是,尽管MHSA和MSSA之间的架构差异很小,但只需简单地将ViT中的MHSA替换为CRATE中的MSSA,就能显著提升ViT在粗分割性能(即VOC Seg)方面的表现。这进一步证明了白盒设计的有效性
需要进行改写的内容是:注意头的语义属性的识别
[CLS] token和图像块token之间的自注意力图可以看到清晰的分段掩码,根据直觉,每个注意力头应该都可以捕捉到数据的部分特征。
研究人员首先将图像输入到CRATE模型,然后由人来检查、选择四个似乎具有语义含义的注意力头;然后在其他输入图像上在这些注意力头上进行自注意力图可视化。
观察可以发现,每个注意力头都能够捕捉到物体的不同部分,甚至是不同的语义。例如,第一列中的注意力头能够捕捉到不同动物的腿部,而最后一列中的注意力头则能够捕捉到耳朵和头部
自从可形变部件模型(deformable part model)和胶囊网络发布以来,这种将视觉输入解析为部分-整体层次结构的能力一直是识别架构的目标,白盒设计的CRATE模型也具有这种能力。
以上是马毅教授新作:白盒ViT成功实现「分割涌现」,经验深度学习时代即将结束?的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

想象一下,一个人工智能模型,不仅拥有超越传统计算的能力,还能以更低的成本实现更高效的性能。这不是科幻,DeepSeek-V2[1],全球最强开源MoE模型来了。DeepSeek-V2是一个强大的专家混合(MoE)语言模型,具有训练经济、推理高效的特点。它由236B个参数组成,其中21B个参数用于激活每个标记。与DeepSeek67B相比,DeepSeek-V2性能更强,同时节省了42.5%的训练成本,减少了93.3%的KV缓存,最大生成吞吐量提高到5.76倍。DeepSeek是一家探索通用人工智

AI,的确正在改变数学。最近,一直十分关注这个议题的陶哲轩,转发了最近一期的《美国数学学会通报》(BulletinoftheAmericanMathematicalSociety)。围绕「机器会改变数学吗?」这个话题,众多数学家发表了自己的观点,全程火花四射,内容硬核,精彩纷呈。作者阵容强大,包括菲尔兹奖得主AkshayVenkatesh、华裔数学家郑乐隽、纽大计算机科学家ErnestDavis等多位业界知名学者。AI的世界已经发生了天翻地覆的变化,要知道,其中很多文章是在一年前提交的,而在这一

本月初,来自MIT等机构的研究者提出了一种非常有潜力的MLP替代方法——KAN。KAN在准确性和可解释性方面表现优于MLP。而且它能以非常少的参数量胜过以更大参数量运行的MLP。比如,作者表示,他们用KAN以更小的网络和更高的自动化程度重现了DeepMind的结果。具体来说,DeepMind的MLP有大约300,000个参数,而KAN只有约200个参数。KAN与MLP一样具有强大的数学基础,MLP基于通用逼近定理,而KAN基于Kolmogorov-Arnold表示定理。如下图所示,KAN在边上具

波士顿动力Atlas,正式进入电动机器人时代!昨天,液压Atlas刚刚「含泪」退出历史舞台,今天波士顿动力就宣布:电动Atlas上岗。看来,在商用人形机器人领域,波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后,短短十几小时内,就已经有一百多万观看。旧人离去,新角色登场,这是历史的必然。毫无疑问,今年是人形机器人的爆发年。网友锐评:机器人的进步,让今年看起来像人类的开幕式动作、自由度远超人类,但这真不是恐怖片?视频一开始,Atlas平静地躺在地上,看起来应该是仰面朝天。接下来,让人惊掉下巴

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow,7项指标排名第一。而且测试并不是在JAX性能表现最好的TPU上完成的。虽然现在在开发者中,Pytorch依然比Tensorflow更受欢迎。但未来,也许有更多的大模型会基于JAX平台进行训练和运行。模型最近,Keras团队为三个后端(TensorFlow、JAX、PyTorch)与原生PyTorch实现以及搭配TensorFlow的Keras2进行了基准测试。首先,他们为生成式和非生成式人工智能任务选择了一组主流

今天我想分享一个最新的研究工作,这项研究来自康涅狄格大学,提出了一种将时间序列数据与自然语言处理(NLP)大模型在隐空间上对齐的方法,以提高时间序列预测的效果。这一方法的关键在于利用隐空间提示(prompt)来增强时间序列预测的准确性。论文标题:S2IP-LLM:SemanticSpaceInformedPromptLearningwithLLMforTimeSeriesForecasting下载地址:https://arxiv.org/pdf/2403.05798v1.pdf1、问题背景大模型

特斯拉机器人Optimus最新视频出炉,已经可以在厂子里打工了。正常速度下,它分拣电池(特斯拉的4680电池)是这样的:官方还放出了20倍速下的样子——在小小的“工位”上,拣啊拣啊拣:这次放出的视频亮点之一在于Optimus在厂子里完成这项工作,是完全自主的,全程没有人为的干预。并且在Optimus的视角之下,它还可以把放歪了的电池重新捡起来放置,主打一个自动纠错:对于Optimus的手,英伟达科学家JimFan给出了高度的评价:Optimus的手是全球五指机器人里最灵巧的之一。它的手不仅有触觉

目标检测在自动驾驶系统当中是一个比较成熟的问题,其中行人检测是最早得以部署算法之一。在多数论文当中已经进行了非常全面的研究。然而,利用鱼眼相机进行环视的距离感知相对来说研究较少。由于径向畸变大,标准的边界框表示在鱼眼相机当中很难实施。为了缓解上述描述,我们探索了扩展边界框、椭圆、通用多边形设计为极坐标/角度表示,并定义一个实例分割mIOU度量来分析这些表示。所提出的具有多边形形状的模型fisheyeDetNet优于其他模型,并同时在用于自动驾驶的Valeo鱼眼相机数据集上实现了49.5%的mAP
