CVPR 2023｜美图&国科大联合提出DropKey正则化方法：用两行代码高效避免视觉Transformer过拟合问题-人工智能-PHP中文网

首页

科技周边

人工智能

CVPR 2023｜美图&国科大联合提出DropKey正则化方法：用两行代码高效避免视觉Transformer过拟合问题

PHPz

Jan 14, 2024 pm 09:15 PM

理论

近期，基于 Transformer 的算法被广泛应用于计算机视觉的各类任务中，但该类算法在训练数据量较小时容易产生过拟合问题。现有 Vision Transformer 通常直接引入 CNN 中常用的 Dropout 算法作为正则化器，其在注意力权重图上进行随机 Drop 并为不同深度的注意力层设置统一的 drop 概率。尽管 Dropout 十分简单，但这种 drop 方式主要面临三个主要问题。

首先，在 softmax 归一化后进行随机 Drop 会打破注意力权重的概率分布并且无法对权重峰值进行惩罚，从而导致模型仍会过拟合于局部特定信息（如图 1）。其次，网络深层中较大的 Drop 概率会导致高层语义信息缺失，而浅层中较小的 drop 概率会导致过拟合于底层细节特征，因此恒定的 drop 概率会导致训练过程的不稳定。最后，CNN 中常用的结构化 drop 方式在 Vision Transformer 上的有效性并不明朗。

CVPR 2023｜两行代码高效缓解视觉Transformer过拟合，美图&国科大联合提出正则化方法DropKey

图 1 不同正则化器对注意力分布图的影响

美图影像研究院（MT Lab）与中国科学院大学在 CVPR 2023 上发表了一篇文章，提出一种新颖且即插即用的正则化器 DropKey，该正则化器可以有效缓解 Vision Transformer 中的过拟合问题。

CVPR 2023｜两行代码高效缓解视觉Transformer过拟合，美图&国科大联合提出正则化方法DropKey

论文链接：https://arxiv.org/abs/2208.02646

文章中对以下三个核心问题进行了研究：

第一，在注意力层应该对什么信息执行 Drop 操作？与直接 Drop 注意力权重不同，该方法在计算注意力矩阵之前执行 Drop 操作，并将 Key 作为基础 Drop 单元。该方法在理论上验证了正则化器 DropKey 可以对高注意力区域进行惩罚并将注意力权值分配到其它感兴趣的区域，从而增强模型对全局信息的捕获能力。

第二，如何设置 Drop 概率？与所有层共享同一个 Drop 概率相比，该论文提出了一种新颖的 Drop 概率设置方法，即随着自注意力层的加深而逐渐衰减 Drop 概率值。

第三，是否需要像 CNN 一样进行结构化 Drop 操作？该方法尝试了基于块窗口和交叉窗口的结构化 Drop 方式，并发现这种技巧对于 Vision Transformer 来说并不重要。

背景

Vision Transformer（ViT）是近期计算机视觉模型中的新范式，它被广泛地应用于图像识别、图像分割、人体关键点检测和人物互相检测等任务中。具体而言，ViT 将CVPR 2023｜美图&国科大联合提出DropKey正则化方法：用两行代码高效避免视觉Transformer过拟合问题分割为固定数量的图像块，将每个图像块都视作一个基本单位，同时引入了多头自注意力机制来提取包含相互关系的特征信息。但现有 ViT 类方法在小数据集上往往会出现过拟合问题，即仅使用目标局部特征来完成指定任务。

为了克服以上问题，该论文提出了一种即插即拔、仅需要两行代码便可实现的正则化器 DropKey 用以缓解 ViT 类方法的过拟合问题。不同于已有的 Dropout，DropKey 将 Key 设置为 drop 对象并从理论和实验上验证了该改变可以对高注意力值部分进行惩罚，同时鼓励模型更多关注与目标有关的其他图像块，有助于捕捉全局鲁棒特征。此外，该论文还提出为不断加深的注意力层设置递减的 drop 概率，这可以避免模型过度拟合低级特征并同时保证有充足的高级特征以进行稳定的训练。此外，该论文还通过实验证明，结构化 drop 方法对 ViT 来说不是必要的。

DropKey

为了探究引发过拟合问题的本质原因，该研究首先将注意力机制形式化为一个简单的优化目标并对其拉格朗日展开形式进行分析。发现当模型在不断地优化时，当前迭代中注意力占比越大的图像块，在下次迭代过程中会倾向于被分配更大的注意力权值。为缓解这一问题，DropKey 通过随机 drop 部分 Key 的方式来隐式地为每个注意力块分配一个自适应算子以约束注意力分布从而使其变得更加平滑。值得注意的是，相对于其他根据特定任务而设计的正则化器，DropKey 无需任何手工设计。由于在训练阶段对 Key 执行随机 drop，这将导致训练和测试阶段的输出期望不一致，因此该方法还提出使用蒙特卡洛方法或微调技巧以对齐输出期望。此外，该方法的实现仅需两行代码，具体如图 2 所示。

CVPR 2023｜两行代码高效缓解视觉Transformer过拟合，美图&国科大联合提出正则化方法DropKey

图 2 DropKey 实现方法

一般而言，ViT 会叠加多个注意力层以逐步学习高维特征。通常，较浅层会提取低维视觉特征，而深层则旨在提取建模空间上粗糙但复杂的信息。因此，该研究尝试为深层设置较小的 drop 概率以避免丢失目标对象的重要信息。具体而言，DropKey 并不在每一层以固定的概率执行随机 drop，而是随着层数的不断加深而逐渐降低 drop 的概率。此外，该研究还发现这种方法不仅适用于 DropKey，还可以显着提高 Dropout 的性能。

虽然在 CNN 中对结构化 drop 方法已有较为详细的研究，但还没有研究该 drop 方式对 ViT 的性能影响。为探究该策略会不会进一步提升性能，该论文实现了 DropKey 的两种结构化形式，即 DropKey-Block 和 DropKey-Cross。其中，DropKey- Block 通过对以种子点为中心的正方形窗口内连续区域进行 drop，DropKey-Cross 则通过对以种子点为中心的十字形连续区域进行 drop，如图 3 所示。然而，该研究发现结构化 drop 方法并不会带来性能提升。

CVPR 2023｜两行代码高效缓解视觉Transformer过拟合，美图&国科大联合提出正则化方法DropKey

图3 DropKey 的结构化实现方法

实验结果

CVPR 2023｜两行代码高效缓解视觉Transformer过拟合，美图&国科大联合提出正则化方法DropKey

图4 DropKey 和Dropout 在CIFAR10/100 上的性能比较

CVPR 2023｜两行代码高效缓解视觉Transformer过拟合，美图&国科大联合提出正则化方法DropKey

图5 DropKey 和Dropout 在CIFAR100 上的注意力图可视化效果比较

CVPR 2023｜两行代码高效缓解视觉Transformer过拟合，美图&国科大联合提出正则化方法DropKey

图6 不同drop 概率设置策略的性能比较

CVPR 2023｜两行代码高效缓解视觉Transformer过拟合，美图&国科大联合提出正则化方法DropKey

图7 不同输出期望对齐策略的性能比较

CVPR 2023｜两行代码高效缓解视觉Transformer过拟合，美图&国科大联合提出正则化方法DropKey

图8 不同结构化drop 方法的性能比较

CVPR 2023｜两行代码高效缓解视觉Transformer过拟合，美图&国科大联合提出正则化方法DropKey

图9 DropKey 和Dropout 在ImageNet 上的性能比较

CVPR 2023｜两行代码高效缓解视觉Transformer过拟合，美图&国科大联合提出正则化方法DropKey

图10 DropKey 和Dropout 在COCO 上的性能比较

CVPR 2023｜两行代码高效缓解视觉Transformer过拟合，美图&国科大联合提出正则化方法DropKey

图11 DropKey 和Dropout 在HICO-DET 上的性能比较

CVPR 2023｜美图&国科大联合提出DropKey正则化方法：用两行代码高效避免视觉Transformer过拟合问题

图12 DropKey 和Dropout 在HICO-DET 上的性能比较

CVPR 2023｜两行代码高效缓解视觉Transformer过拟合，美图&国科大联合提出正则化方法DropKey

图 13 DropKey 和 Dropout 在 HICO-DET 上的注意力图可视化比较

总结

该论文创新性地提出了一种用于 ViT 的正则化器，用于缓解 ViT 的过拟合问题。与已有的正则化器相比，该方法可以通过简单地将 Key 置为 drop 对象，从而为注意力层提供平滑的注意力分布。另外，该论文还提出了一种新颖的 drop 概率设置策略，成功地在有效缓解过拟合的同时稳定训练过程。最后，该论文还探索了结构化 drop 方式对模型的性能影响。

以上是CVPR 2023｜美图&国科大联合提出DropKey正则化方法：用两行代码高效避免视觉Transformer过拟合问题的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

AI Hentai Generator

免费生成ai无尽的。

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7461

CakePHP 教程

1376

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

$突破传统缺陷检测的界限，\'Defect Spectrum\'首次实现超高精度丰富语义的工业缺陷检测。$ 突破传统缺陷检测的界限，\'Defect Spectrum\'首次实现超高精度丰富语义的工业缺陷检测。 Jul 26, 2024 pm 05:38 PM

在现代制造业中，精准的缺陷检测不仅是保证产品质量的关键，更是提升生产效率的核心。然而，现有的缺陷检测数据集常常缺乏实际应用所需的精确度和语义丰富性，导致模型无法识别具体的缺陷类别或位置。为了解决这一难题，由香港科技大学广州和思谋科技组成的顶尖研究团队，创新性地开发出了“DefectSpectrum”数据集，为工业缺陷提供了详尽、语义丰富的大规模标注。如表一所示，相比其他工业数据集，“DefectSpectrum”数据集提供了最多的缺陷标注（5438张缺陷样本），最细致的缺陷分类（125种缺陷类别

英伟达对话模型ChatQA进化到2.0版本，上下文长度提到128K Jul 26, 2024 am 08:40 AM

开放LLM社区正是百花齐放、竞相争鸣的时代，你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等许多表现优良的模型。但是，相比于以GPT-4-Turbo为代表的专有大模型，开放模型在很多领域依然还有明显差距。在通用模型之外，也有一些专精关键领域的开放模型已被开发出来，比如用于编程和数学的DeepSeek-Coder-V2、用于视觉-语言任务的InternVL

谷歌AI拿下IMO奥数银牌，数学推理模型AlphaProof面世，强化学习 is so back Jul 26, 2024 pm 02:40 PM

对于AI来说，奥数不再是问题了。本周四，谷歌DeepMind的人工智能完成了一项壮举：用AI做出了今年国际数学奥林匹克竞赛IMO的真题，并且距拿金牌仅一步之遥。上周刚刚结束的IMO竞赛共有六道赛题，涉及代数、组合学、几何和数论。谷歌提出的混合AI系统做对了四道，获得28分，达到了银牌水平。本月初，UCLA终身教授陶哲轩刚刚宣传了百万美元奖金的AI数学奥林匹克竞赛（AIMO进步奖），没想到7月还没过，AI的做题水平就进步到了这种水平。IMO上同步做题，做对了最难题IMO是历史最悠久、规模最大、最负

Nature观点，人工智能在医学中的测试一片混乱，应该怎么做？ Aug 22, 2024 pm 04:37 PM

编辑|ScienceAI基于有限的临床数据，数百种医疗算法已被批准。科学家们正在讨论由谁来测试这些工具，以及如何最好地进行测试。DevinSingh在急诊室目睹了一名儿科患者因长时间等待救治而心脏骤停，这促使他探索AI在缩短等待时间中的应用。Singh利用了SickKids急诊室的分诊数据，与同事们建立了一系列AI模型，用于提供潜在诊断和推荐测试。一项研究表明，这些模型可以加快22.3%的就诊速度，将每位需要进行医学检查的患者的结果处理速度加快近3小时。然而，人工智能算法在研究中的成功只是验证此

数百万晶体数据训练，解决晶体学相位问题，深度学习方法PhAI登Science Aug 08, 2024 pm 09:22 PM

编辑|KX时至今日，晶体学所测定的结构细节和精度，从简单的金属到大型膜蛋白，是任何其他方法都无法比拟的。然而，最大的挑战——所谓的相位问题，仍然是从实验确定的振幅中检索相位信息。丹麦哥本哈根大学研究人员，开发了一种解决晶体相问题的深度学习方法PhAI，利用数百万人工晶体结构及其相应的合成衍射数据训练的深度学习神经网络，可以生成准确的电子密度图。研究表明，这种基于深度学习的从头算结构解决方案方法，可以以仅2埃的分辨率解决相位问题，该分辨率仅相当于原子分辨率可用数据的10%到20%，而传统的从头算方

为大模型提供全新科学复杂问答基准与测评体系，UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架 Jul 25, 2024 am 06:42 AM

编辑|ScienceAI问答（QA）数据集在推动自然语言处理（NLP）研究发挥着至关重要的作用。高质量QA数据集不仅可以用于微调模型，也可以有效评估大语言模型（LLM）的能力，尤其是针对科学知识的理解和推理能力。尽管当前已有许多科学QA数据集，涵盖了医学、化学、生物等领域，但这些数据集仍存在一些不足。其一，数据形式较为单一，大多数为多项选择题（multiple-choicequestions），它们易于进行评估，但限制了模型的答案选择范围，无法充分测试模型的科学问题解答能力。相比之下，开放式问答

自动识别最佳分子，降低合成成本，MIT开发分子设计决策算法框架 Jun 22, 2024 am 06:43 AM

编辑|紫罗AI在简化药物发现方面的应用正在爆炸式增长。从数十亿种候选分子中筛选出可能具有开发新药所需特性的分子。需要考虑的变量太多了，从材料价格到出错的风险，即使科学家使用AI，权衡合成最佳候选分子的成本也不是一件容易的事。在此，MIT研究人员开发了一个定量决策算法框架SPARROW，来自动识别最佳分子候选物，从而最大限度地降低合成成本，同时最大限度地提高候选物具有所需特性的可能性。该算法还确定了合成这些分子所需的材料和实验步骤。SPARROW考虑了一次合成一批分子的成本，因为多个候选分子通常可

SOTA性能，厦大多模态蛋白质-配体亲和力预测AI方法，首次结合分子表面信息 Jul 17, 2024 pm 06:37 PM

编辑|KX在药物研发领域，准确有效地预测蛋白质与配体的结合亲和力对于药物筛选和优化至关重要。然而，目前的研究没有考虑到分子表面信息在蛋白质-配体相互作用中的重要作用。基于此，来自厦门大学的研究人员提出了一种新颖的多模态特征提取（MFE）框架，该框架首次结合了蛋白质表面、3D结构和序列的信息，并使用交叉注意机制进行不同模态之间的特征对齐。实验结果表明，该方法在预测蛋白质-配体结合亲和力方面取得了最先进的性能。此外，消融研究证明了该框架内蛋白质表面信息和多模态特征对齐的有效性和必要性。相关研究以「S

See all articles

CVPR 2023｜美图&国科大联合提出DropKey正则化方法：用两行代码高效避免视觉Transformer过拟合问题

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题