【论文解读】基于图的自监督学习联合嵌入预测架构-人工智能-PHP中文网

首页

科技周边

人工智能

【论文解读】基于图的自监督学习联合嵌入预测架构

PHPz

Oct 10, 2023 pm 01:41 PM

人工智能图像论文理论图像自监督学习方法

一、简要介绍

【论文解读】基于图的自监督学习联合嵌入预测架构本文演示了一种学习高度语义的图像表示的方法，而不依赖于手工制作的数据增强。论文介绍了基于图像的联合嵌入预测架构（I-JEPA），这是一种用于从图像中进行自监督学习的非生成性方法。I-JEPA背后的idea很简单：从单个上下文块中，预测同一图像中不同目标块的表示。指导I-JEPA产生语义表示的核心设计选择是掩膜策略；具体来说，(a)预测图像中的几个目标块，(b)采样足够大规模的样本目标块（占图像的15%-20%），(c)使用足够丰富的（空间分布）上下文块，是至关重要的。根据经验，当与视觉transformer结合时，论文发现I-JEPA具有高度的可缩放性。例如，论文在ImageNet上使用32个A100 GPU在38小时内训练一个ViT-Huge/16，以在需要不同抽象级别的广泛任务中实现强大的下游性能，从线性分类到对象计数和深度预测。

二、研究背景

在计算机视觉中，有两种常见的图像自监督学习方法。

基于不变性的方法和生成方法。通过基于不变性的预训练方法优化编码器，可以为同一图像的两个或多个视图生成相似的嵌入。通常，图像视图会使用一组手工制作的数据增强方法来构建，例如随机缩放、裁剪、颜色抖动等。这些预训练方法可以生成高语义级别的表示，但同时也会引入强烈的偏差，可能对某些下游任务甚至不同数据分布的预训练任务产生负面影响

认知学习理论认为，生物系统中表征学习背后的一个驱动机制是如何适应一个内部模型来预测感官输入反应。这个想法是自我监督生成方法的核心，它删除或损坏部分输入，并学习预测损坏的内容。特别是，掩膜去噪方法通过从输入的像素或令牌级别重建随机掩膜补丁来学习表示。与视图不变性方法相比，掩膜的预训练任务需要更少的先验知识，并且很容易推广到图像模态之外。然而，所得到的表示通常具有较低的语义级别，并且在现成的评估（如线性探测）和对语义分类任务监督有限的转移设置中缺乏基于不变性的预训练。因此，需要一个更复杂的适应机制（例如，端到端微调）来获得这些方法的充分优势。

在这项工作中，论文探索如何提高自我监督表示的语义水平，而不使用额外的先验知识编码的图像转换。为此，论文引入了一种图像联合嵌入预测架构（I-JEPA）。图3提供了该方法的一个说明。I-JEPA背后的构思是预测抽象表示空间中的缺失信息；例如，给定一个上下文块，预测同一图像中不同目标块的表示，其中目标表示是由学习到的目标编码器网络计算的。

与在像素/标记空间中进行预测的生成方法相比，I-JEPA利用抽象的预测目标，可能消除不必要的像素级细节，从而导致模型学习更多的语义特征。另一个指导I-JEPA产生语义表示的核心设计选择是所提出的多块掩膜策略。具体来说，论文演示了使用一个信息丰富的（空间分布的）上下文块来预测图像中的几个目标块（具有足够大的规模）的重要性。重写后的内容：相较于在像素/标记空间中进行预测的生成方法，I-JEPA利用抽象的预测目标，可能消除不必要的像素级细节，从而使模型能够学习更多的语义特征。I-JEPA的另一个核心设计选择是采用多块掩膜策略来生成语义表示。具体而言，该论文展示了使用信息丰富的（空间分布的）上下文块来预测图像中几个目标块（具有足够大的规模）的重要性

根据大量的实证评估，研究表明：

I-JEPA学习了强大的现成的语义表示，而不使用手工制作的视图增强(图1)。I-JEPA优于像素重建方法，如在ImageNet-1K线性探测上的MAE、半监督的1% ImageNet-1K和语义传输任务。

【论文解读】基于图的自监督学习联合嵌入预测架构 I-JEPA在语义任务上与视图不变预训练方法具有竞争力，并且在对象计数和深度预测等低级视觉任务上取得了更好的性能。通过使用一个更简单的模型和更少的刚性归纳偏差，I-JEPA是适用于更广泛的任务集。

I-JEPA也是可缩放的和高效的。在ImageNet上对ViT-H/14进行预训练大约需要2400 GPU小时，比使用iBOT 预训练的ViTB/16快50%，比使用MAE预训练的ViT-L/16的效率快140%。在表示空间中的预测显著减少了自我监督预训练所需的总计算量。

自我监督学习是一种表征学习的方法，其中一个系统学习捕获其输入之间的关系。这个目标可以很容易地使用基于能量的模型（EBMs）的框架来描述，其中自我监督的目标是为不兼容的输入分配高能，并为兼容的输入分配低能量。许多现有的生成式和非生成式的自我监督学习方法确实可以在这个框架中进行转换；见图2

重写后的内容：联合嵌入式架构（Joint-Embedding Architectures）是一种基于不变性的预训练方法，在EBM框架中使用可以进行强制转换，见图2a。联合嵌入架构的学习目标是使兼容的输入x和y输出相似的嵌入，而不兼容的输入则输出不同的嵌入。在基于图像的预训练中，通常会通过对相同的输入图像随机应用手工制作的数据增强来构建兼容的x和y对

JEA的主要挑战是表示坍缩，其中能量景观是平坦的（即，编码器产生一个恒定的输出，而不管输入如何）。在过去的几年里，已经研究了几种方法来防止表示坍缩，如明确推动负例子嵌入的对比损失，最小化嵌入的信息冗余的非对比损失，以及基于聚类的方法来最大化平均嵌入的熵。也有一些启发式的方法，利用x编码器和y编码器之间的非对称架构设计来避免坍缩的。生成式架构（Generative Architectures）。基于重构的自监督学习方法也可以在使用生成式架构的EBM框架中进行强制转换；见图2b

生成式架构学习从一个兼容的信号x直接重建信号y，使用一个附加的（可能是潜在的）变量z的解码器网络，以促进重建。在基于图像的预训练中，计算机视觉中一种常见的方法是使用掩膜产生兼容的x，y对，其中x是图像y的一个副本，但有一些补丁被掩膜。然后，条件反射变量z对应于一组（可能是可学习的）掩膜和位置标记，它指定了要重建的图像补丁的解码器。只要z的信息容量比信号y要低，这些体系结构就不会关注表示坍缩。

联合嵌入式预测性架构（Joint-Embedding Predictive Architectures）。如图2c所示，联合嵌入预测架构在概念上类似于生成式架构；然而，一个关键的区别是，损失函数应用于嵌入空间，而不是输入空间。JEPA学习从兼容的信号x预测信号y的嵌入，使用一个附加（可能是潜在）变量z的预测网络以促进预测。论文提出的I-JEPA在使用掩膜的图像上下文中提供了该架构的实例化；参见图3。与联合嵌入架构相比，JEPA并不寻求对一组手工制作的数据增强不变的表示，而是寻求在附加信息z条件时相互预测的表示。然而，与联合嵌入架构一样，表示坍缩也是JEPA关注的一个问题。论文利用x和y编码器之间的非对称架构，以避免I-JEPA中的表示坍缩。

【论文解读】基于图的自监督学习联合嵌入预测架构

三、方法介绍

论文现在描述了所提出的基于图像的联合嵌入预测体系结构（I-JEPA），如图3所示。总体目标如下：给定一个上下文块，预测同一图像中不同目标块的表示。论文使用视觉Transformer（ViT）架构作为上下文编码器、目标编码器和预测器。一个ViT由一堆Transformer层组成，每个Transformer层由一个自注意的操作和一个全连接的MLP组成。论文的编码器/预测器架构让人想起生成掩膜自动编码器（MAE）方法。然而，一个关键的区别是，I-JEPA方法是非生成性的，并且预测是在表示空间中做出的。

【论文解读】基于图的自监督学习联合嵌入预测架构

图像分类

为了证明I-JEPA在不依赖于手工制作的数据增强的情况下学习高级表示，论文报告了使用线性探测和部分微调协议的各种图像分类任务的结果。在本节中，论文将考虑在ImageNet-1K数据集上预先训练过的自监督模型。预训练和评估实施细节见附录a。所有的I-JEPA模型都在分辨率224×224中进行训练，除非另有明确说明。

ImageNet-1K.表1显示了在通用的ImageNet-1K线性评估基准上的性能。经过自监督预训练后，冻结模型权值，并使用完整的ImageNet-1K训练集在顶部训练一个线性分类器。与流行的掩膜自动编码器（MAE）和data2vec 方法相比，它们在训练前也不依赖大量手工制作的数据增强，论文看到I-JEPA显着提高了线性探测性能，同时使用了更少的计算量。此外，I-JEPA还受益于规模。在分辨率为448时训练的ViT-H/16与视图不变方法的性能相匹配，如iBOT，而不需要额外的手工数据扩充。

【论文解读】基于图的自监督学习联合嵌入预测架构

低样本量的ImageNet-1K。表2展示了在1%的ImageNet基准测试上的性能。这些方法是利用预训练好的模型进行ImageNet分类，只使用1%的ImageNet标签，每个类别大约有12或13张图像。模型通过微调或线性探测进行调整，具体取决于每种方法的最佳效果。当使用相似的编码器架构时，I-JEPA表现优于MAE，并且需要更少的预训练时期。使用ViTH/14架构的I-JEPA与使用数据2vec预训练的ViT-L/16的性能相当，但计算量明显更少。通过提高图像输入分辨率，I-JEPA在比以前的方法更好，包括联合嵌入方法以及在训练前利用额外的手工数据增强方法，如MSN、DINO和iBOT

Transfer learning.表3显示了使用线性探头的各种下游图像分类任务的性能。 I-JEPA显着优于以前不使用增强的方法（MAE和数据2vec），并减少了在训练前利用手工制作的基于观点不变的最佳方法的差距，甚至超过了CIFAR100和Place205上流行的DINO 。
【论文解读】基于图的自监督学习联合嵌入预测架构

五、本地预测任务（Local Prediction Tasks）

I-JEPA学习语义图像表示，显着提高了以往方法的下游图像分类性能，如MAE和data2vec。此外，I-JEPA受益于规模，并可以缩小差距，甚至超越，利用额外的手工制作的数据增强的基于视图不变性的方法。在本节中，论文发现I-JEPA也能学习局部图像特征，并在低水平和密集的预测任务中，如对象计数和深度预测中，超越了基于视图不变性的方法。

表4显示了使用线性探测的各种低级任务的性能。特别是，经过预训练后，模型的权值被冻结，并在顶部训练一个线性模型，对Clevr数据集进行对象计数和深度预测。与DINO和iBOT等视图不变性方法相比，I-JEPA方法在训练前有效地捕获了低级图像特征，并在对象计数（Clevr/Count）和（大幅度）深度预测（Clevr/Dist）方面优于它们。【论文解读】基于图的自监督学习联合嵌入预测架构六、可缩放性（Scalability）

重写后的内容如下：根据以前的方法进行比较，I-JEPA在模型效率方面具有高度的可扩展性。图5展示了对1%的ImageNet-1K进行GPU小时评估的半监督结果。相较于以前的方法，I-JEPA所需的计算量更少，并且在没有依赖手工数据增强的情况下获得了强大的性能。与基于重建的方法（如直接使用像素作为目标的MAE等）相比，I-JEPA通过在表示空间中计算目标而引入了额外的开销（每次迭代的时间大约慢7%）

【论文解读】基于图的自监督学习联合嵌入预测架构缩放数据大小（Scaling data size）。论文还发现I-JEPA受益于更大数据集的预训练。表5显示了在增加训练前数据集的大小（IN1KvsIN22K）时，在语义任务和低水平任务上的迁移学习性能。当对更大更多样化的数据集进行预训练时，这些概念不同的任务上的迁移学习性能会提高。缩放模型大小（Scaling model size）。表5还显示，在IN22K上进行预训练时，I-JEPA受益于更大的模型规模。与ViT-H/14模型相比，对ViT-G/16的预训练显着提高了对Place205和INat18等图像分类任务的下游性能。 ViTG/16模型并不能提高对低级下游任务的性能。 ViT-G/16使用更大的输入补丁大小，这可能对本地预测任务有害。

【论文解读】基于图的自监督学习联合嵌入预测架构

七、预测可视化（Predictor Visualizations）可以进行重写

I-JEPA中预测器的作用是取上下文编码器的输出，并以位置掩膜令牌为条件，预测掩膜令牌指定的位置上目标块的表示。一个问题是，以位置掩模令牌条件的预测器是否正在学习正确捕获目标中的位置不确定性。为了定性地研究这个问题，论文将预测器的输出可视化。在预训练后，论文冻结了上下文编码器和预测器的权值，并按照RCDM框架训练一个解码器，将预测器输出的平均池映射回像素空间。图6显示了各种随机种子的解码器输出。在样本之间常见的特性表示包含在平均合并预测器表示中的信息。I-JEPA预测器能正确地捕捉到位置的不确定性，并产生具有正确姿态的高级物体部件（例如，鸟的背部和汽车的顶部）。不同样本中不同的质量表示表示法中不包含的信息。在这种情况下，I-JEPA预测器丢弃了精确的低级细节和背景信息。

【论文解读】基于图的自监督学习联合嵌入预测架构

八、消融（Ablations）的重要性

在表示空间中的预测（ Predicting in representation space.）。表7比较了在像素空间和表示空间中计算1% ImageNet-1K时的low-shot性能。论文推测，I-JEPA的一个关键组成部分是，损失完全在表示空间中计算，从而使目标编码器能够产生抽象的预测目标，从而消除了无关的像素级细节。从表7中可以清楚地看出，在像素空间中的预测会导致线性探测性能的显著下降。

【论文解读】基于图的自监督学习联合嵌入预测架构

重写后的内容：掩膜策略（Masking strategy）在表8中进行了修改。本研究减少了在I-JEPA预训练过程中所提出的多块掩膜策略中的目标块数量，并调整了上下文和目标块的规模，如图4所示。我们使用了各种不同多块设置的I-JEPA进行了300个周期的训练，并使用线性探针在1%的ImageNet-1K基准测试上进行了性能比较。总结来说，我们发现预测几个相对较大的（语义）目标块，并结合信息丰富的（空间分布的）上下文块是非常重要的

【论文解读】基于图的自监督学习联合嵌入预测架构

表6在与其他掩膜策略进行比较时，也进行了类似的消融。论文与rasterized掩膜策略进行了比较，其中图像被分割成四个大象限，其目标是使用一个象限作为上下文来预测其他三个象限。论文还比较了通常用于基于重建的方法的传统的block和random掩膜策略。在block掩膜中，目标是单个图像块，上下文是图像补体。在random掩膜中，目标是一组随机的（可能是不连续的）图像补丁，而上下文是图像的补体。请注意，在所有考虑的掩膜策略中，上下文块和目标块之间没有重叠。所提出的multi-block掩膜策略是I-JEPA学习语义表示的关键。即使切换到传统的block掩膜，ImageNet的性能也会降低超过24%。

【论文解读】基于图的自监督学习联合嵌入预测架构

九、结论论文

提出了一种名为I-JEPA的方法，用于学习语义图像表示。该方法不依赖于手工制作的数据增强。研究表明，通过在表示空间中进行预测，I-JEPA比像素重建方法收敛速度更快，并能够学习到高语义水平的表示。与基于视图不变性的方法相比，I-JEPA强调了使用联合嵌入架构学习一般表示的路径，而不依赖于手工制作的视图增强

附录见原文，原文链接：https://arxiv.org/abs/2301.08243

以上是【论文解读】基于图的自监督学习联合嵌入预测架构的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

AI Hentai Generator

免费生成ai无尽的。

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7555

CakePHP 教程

1384

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

字节跳动剪映推出 SVIP 超级会员：连续包年 499 元，提供多种 AI 功能 Jun 28, 2024 am 03:51 AM

本站6月27日消息，剪映是由字节跳动旗下脸萌科技开发的一款视频剪辑软件，依托于抖音平台且基本面向该平台用户制作短视频内容，并兼容iOS、安卓、Windows、MacOS等操作系统。剪映官方宣布会员体系升级，推出全新SVIP，包含多种AI黑科技，例如智能翻译、智能划重点、智能包装、数字人合成等。价格方面，剪映SVIP月费79元，年费599元（本站注：折合每月49.9元），连续包月则为59元每月，连续包年为499元每年（折合每月41.6元）。此外，剪映官方还表示，为提升用户体验，向已订阅了原版VIP

$突破传统缺陷检测的界限，\'Defect Spectrum\'首次实现超高精度丰富语义的工业缺陷检测。$ 突破传统缺陷检测的界限，\'Defect Spectrum\'首次实现超高精度丰富语义的工业缺陷检测。 Jul 26, 2024 pm 05:38 PM

在现代制造业中，精准的缺陷检测不仅是保证产品质量的关键，更是提升生产效率的核心。然而，现有的缺陷检测数据集常常缺乏实际应用所需的精确度和语义丰富性，导致模型无法识别具体的缺陷类别或位置。为了解决这一难题，由香港科技大学广州和思谋科技组成的顶尖研究团队，创新性地开发出了“DefectSpectrum”数据集，为工业缺陷提供了详尽、语义丰富的大规模标注。如表一所示，相比其他工业数据集，“DefectSpectrum”数据集提供了最多的缺陷标注（5438张缺陷样本），最细致的缺陷分类（125种缺陷类别

英伟达对话模型ChatQA进化到2.0版本，上下文长度提到128K Jul 26, 2024 am 08:40 AM

开放LLM社区正是百花齐放、竞相争鸣的时代，你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等许多表现优良的模型。但是，相比于以GPT-4-Turbo为代表的专有大模型，开放模型在很多领域依然还有明显差距。在通用模型之外，也有一些专精关键领域的开放模型已被开发出来，比如用于编程和数学的DeepSeek-Coder-V2、用于视觉-语言任务的InternVL

数百万晶体数据训练，解决晶体学相位问题，深度学习方法PhAI登Science Aug 08, 2024 pm 09:22 PM

编辑|KX时至今日，晶体学所测定的结构细节和精度，从简单的金属到大型膜蛋白，是任何其他方法都无法比拟的。然而，最大的挑战——所谓的相位问题，仍然是从实验确定的振幅中检索相位信息。丹麦哥本哈根大学研究人员，开发了一种解决晶体相问题的深度学习方法PhAI，利用数百万人工晶体结构及其相应的合成衍射数据训练的深度学习神经网络，可以生成准确的电子密度图。研究表明，这种基于深度学习的从头算结构解决方案方法，可以以仅2埃的分辨率解决相位问题，该分辨率仅相当于原子分辨率可用数据的10%到20%，而传统的从头算方

谷歌AI拿下IMO奥数银牌，数学推理模型AlphaProof面世，强化学习 is so back Jul 26, 2024 pm 02:40 PM

对于AI来说，奥数不再是问题了。本周四，谷歌DeepMind的人工智能完成了一项壮举：用AI做出了今年国际数学奥林匹克竞赛IMO的真题，并且距拿金牌仅一步之遥。上周刚刚结束的IMO竞赛共有六道赛题，涉及代数、组合学、几何和数论。谷歌提出的混合AI系统做对了四道，获得28分，达到了银牌水平。本月初，UCLA终身教授陶哲轩刚刚宣传了百万美元奖金的AI数学奥林匹克竞赛（AIMO进步奖），没想到7月还没过，AI的做题水平就进步到了这种水平。IMO上同步做题，做对了最难题IMO是历史最悠久、规模最大、最负

Nature观点，人工智能在医学中的测试一片混乱，应该怎么做？ Aug 22, 2024 pm 04:37 PM

编辑|ScienceAI基于有限的临床数据，数百种医疗算法已被批准。科学家们正在讨论由谁来测试这些工具，以及如何最好地进行测试。DevinSingh在急诊室目睹了一名儿科患者因长时间等待救治而心脏骤停，这促使他探索AI在缩短等待时间中的应用。Singh利用了SickKids急诊室的分诊数据，与同事们建立了一系列AI模型，用于提供潜在诊断和推荐测试。一项研究表明，这些模型可以加快22.3%的就诊速度，将每位需要进行医学检查的患者的结果处理速度加快近3小时。然而，人工智能算法在研究中的成功只是验证此

为大模型提供全新科学复杂问答基准与测评体系，UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架 Jul 25, 2024 am 06:42 AM

编辑|ScienceAI问答（QA）数据集在推动自然语言处理（NLP）研究发挥着至关重要的作用。高质量QA数据集不仅可以用于微调模型，也可以有效评估大语言模型（LLM）的能力，尤其是针对科学知识的理解和推理能力。尽管当前已有许多科学QA数据集，涵盖了医学、化学、生物等领域，但这些数据集仍存在一些不足。其一，数据形式较为单一，大多数为多项选择题（multiple-choicequestions），它们易于进行评估，但限制了模型的答案选择范围，无法充分测试模型的科学问题解答能力。相比之下，开放式问答

PRO | 为什么基于 MoE 的大模型更值得关注？ Aug 07, 2024 pm 07:08 PM

2023年，几乎AI的每个领域都在以前所未有的速度进化，同时，AI也在不断地推动着具身智能、自动驾驶等关键赛道的技术边界。多模态趋势下，Transformer作为AI大模型主流架构的局面是否会撼动？为何探索基于MoE（专家混合）架构的大模型成为业内新趋势？大型视觉模型（LVM）能否成为通用视觉的新突破？...我们从过去的半年发布的2023年本站PRO会员通讯中，挑选了10份针对以上领域技术趋势、产业变革进行深入剖析的专题解读，助您在新的一年里为大展宏图做好准备。本篇解读来自2023年Week50

See all articles

【论文解读】基于图的自监督学习联合嵌入预测架构

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题