NeurIPS 2022 | 开放域检测新方法DetCLIP,推理效率提升20倍
开放域检测问题,指的是在上游利用大量网上爬取的图文对或一定类别的人工标注数据进行训练,如何在下游场景上实现任意类别检测的问题。开放域检测方法在产业界的应用主要包括自动驾驶系统路面物体检测,云端全场景检测等。
论文地址:https://arxiv.org/abs/2209.09407
本篇分享的是 NeurIPS 2022 入选论文《DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for Open-world Detection》,该论文对开放域检测问题提出了一种针对多数据源联合高效的并行训练框架,同时构建了额外的知识库来提供类别间的隐式关系。同时 DetCLIP 在微软举办的 ECCV2022 OdinW (Object Detection in the Wild[1]) 比赛上以 24.9% 的平均检测指标取得了 zero-shot 检测赛道第一名。
问题介绍
随着使用基于网上爬取的图片文本对训练的多模态预训练模型 (如 CLIP) 的流行,以及其在 zero-shot 分类领域体现出的卓越性能,越来越多的方法尝试将这种能力迁移至开放域的 dense 预测 (如任意类别检测、分割等)。现有方法往往使用预训练好的分类大模型进行特征层面的蒸馏[1] 或通过对 caption 打伪标签加自训练的方式进行学习[2],但这样往往会受限制于分类大模型的性能以及 caption 标注不完全的问题。
现有 SOTA 开放域检测模型 GLIP[3]通过将检测数据的格式转化为 Grounding 数据的格式进行多数据源的联合训练,充分利用不同数据源的优势(检测数据集对常见类别有较为完全的标注,而 Grounding 数据集对类别 cover 区间的范围更大)。然而,我们发现将类别名词简拼接的方式导致模型整体的学习效率降低,同时直接使用类别单词作为文本输入无法提供细粒度的类别之间的先验关系。
图 1:多数据源联合预训练开放域检测模型 pipeline
模型框架
如下图所示,基于 ATSS[4]单阶段检测模型搭建,DetCLIP 包含了一个图像编码器来获得检测框的图像特征,以及一个文本编码器来获得类别的文本特征。然后基于上述图像特征及文本特征来计算对应的分类对齐损失、中心点损失以及回归损失。
图 2:DetCLIP 模型框架
如图 2 右上及左上所示,本文的主要创新点是 1)提出以并行输入处理多数据源物体 - 文本联合训练的框架,优化训练效率;2)构建一个额外的物体知识库辅助开放域检测训练。
多数据源并行输入预训练框架
相对于 GLIP 中将 detection 数据通过拼接类别名词的方式转化为 grounding 形式(串行),我们通过将 grounding 数据中的对应名词词组抽取出来和 detection 中的类别作为独立的输入,输入到 text encoder 中(并行),避免不必要的 attention 计算,实现更高的训练效率。
图 3:DetCLIP 并行输入预训练框架与 GLIP 对比
物体知识库
为了解决不同数据源的类别空间不统一问题 (同样类别名称不同,或类别包含等) 以及为类别之间的关系提供先验信息,我们构建了物体知识库来实现更高效的训练。
构建:我们同时综合检测数据中的类别、image-text pair 中的名词词组以及对应定义来构建物体知识库。
使用:1. 我们使用物体知识库的定义对现有的检测数据中的类别单词进行扩充,以提供类别之间关系的先验信息(Concept Enrichment)。
图 4:使用物体知识库对类别单词释义扩充示例
2. 由于 grounding 数据以及 image-caption 中数据存在 caption 标注不完全的问题(图片上出现的类别在 caption 中并没有出现),导致训练这些图片的时候可以作为负样本的类别数目极少,进而使得模型对于一些不常见类别的区分度较少。因此我们从物体知识库中随机选取物体名词作为负样本类别,提升模型对稀少类别特征的区分度(+Negative Samples)。
图 5:引入物体知识库中的类别作为负样本类别
3. 对于无框标注的 image-text pair 数据,我们通过华为诺亚自研大模型 FILIP[5]和预训练好的 RPN 对其进行标注,使其可以转化为正常的 grounding 数据进行训练。同时为了缓解 caption 中对图片上物体不完全标注的问题,我们使用了物体知识库的所有类别词组作为打伪标签的候选类别 (第二行),与仅仅使用 caption 中的类别标注效果(第一行) 对比如下:
图 6:引入物体知识库中的类别作为打伪标签候选类别
实验结果
我们在下游 LVIS 检测数据集 (1203 类) 上验证了所提方法的开放域检测性能,可以看出在基于 swin-t backbone 的架构上,DetCLIP 相对于现有 SOTA 模型 GLIP 取得了 9.9% AP 提升,在 Rare 类别上更是提升了 12.4% AP,尽管相对于 GLIP 我们只使用了少于其一半的数据量,注意训练集中未包含 LVIS 中任何图片。
表 1:LVIS 上不同方法 Zero-shot transfer performance 比较
在训练效率上,基于相同 32 张 V100 的硬件条件,GLIP-T 的训练时间是 DetCLIP-T 的 5 倍(10.7K GPU hrs vs. 2.0K GPU hrs)。在测试效率上,基于单张 V100,DetCLIP-T 的推理效率 2.3 FPS (0.4 秒每张图)是 GLIP-T 的 0.12 FPS (8.6 秒每张图)的 20 倍。我们同时单独研究了 DetCLIP 的关键创新 (并行框架和物体知识库) 对精度的影响。
表 3:DetCLIP 在 LVIS 数据集上的消融研究结果
可视化结果
如下图所示,基于相同的 swin-t backbone,在 LVIS 数据集上的可视化效果相对于 GLIP 来说有了明显的提升,尤其是在稀有类别的标注以及标注的完整程度。
图 7:DetCLIP 与 GLIP 在 LVIS 数据集上预测结果的可视化对比
以上是NeurIPS 2022 | 开放域检测新方法DetCLIP,推理效率提升20倍的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

DDREASE是一种用于从文件或块设备(如硬盘、SSD、RAM磁盘、CD、DVD和USB存储设备)恢复数据的工具。它将数据从一个块设备复制到另一个块设备,留下损坏的数据块,只移动好的数据块。ddreasue是一种强大的恢复工具,完全自动化,因为它在恢复操作期间不需要任何干扰。此外,由于有了ddasue地图文件,它可以随时停止和恢复。DDREASE的其他主要功能如下:它不会覆盖恢复的数据,但会在迭代恢复的情况下填补空白。但是,如果指示工具显式执行此操作,则可以将其截断。将数据从多个文件或块恢复到单

0.这篇文章干了啥?提出了DepthFM:一个多功能且快速的最先进的生成式单目深度估计模型。除了传统的深度估计任务外,DepthFM还展示了在深度修复等下游任务中的最先进能力。DepthFM效率高,可以在少数推理步骤内合成深度图。下面一起来阅读一下这项工作~1.论文信息标题:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

如果您需要了解如何在Excel中使用具有多个条件的筛选功能,以下教程将指导您完成相应步骤,确保您可以有效地对数据进行筛选和排序。Excel的筛选功能是非常强大的,能够帮助您从大量数据中提取所需的信息。这个功能可以根据您设定的条件,过滤数据并只显示符合条件的部分,让数据的管理变得更加高效。通过使用筛选功能,您可以快速找到目标数据,节省了查找和整理数据的时间。这个功能不仅可以应用在简单的数据列表上,还可以根据多个条件进行筛选,帮助您更精准地定位所需信息。总的来说,Excel的筛选功能是一个非常实用的

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow,7项指标排名第一。而且测试并不是在JAX性能表现最好的TPU上完成的。虽然现在在开发者中,Pytorch依然比Tensorflow更受欢迎。但未来,也许有更多的大模型会基于JAX平台进行训练和运行。模型最近,Keras团队为三个后端(TensorFlow、JAX、PyTorch)与原生PyTorch实现以及搭配TensorFlow的Keras2进行了基准测试。首先,他们为生成式和非生成式人工智能任务选择了一组主流

在iPhone上面临滞后,缓慢的移动数据连接?通常,手机上蜂窝互联网的强度取决于几个因素,例如区域、蜂窝网络类型、漫游类型等。您可以采取一些措施来获得更快、更可靠的蜂窝互联网连接。修复1–强制重启iPhone有时,强制重启设备只会重置许多内容,包括蜂窝网络连接。步骤1–只需按一次音量调高键并松开即可。接下来,按降低音量键并再次释放它。步骤2–该过程的下一部分是按住右侧的按钮。让iPhone完成重启。启用蜂窝数据并检查网络速度。再次检查修复2–更改数据模式虽然5G提供了更好的网络速度,但在信号较弱

哭死啊,全球狂炼大模型,一互联网的数据不够用,根本不够用。训练模型搞得跟《饥饿游戏》似的,全球AI研究者,都在苦恼怎么才能喂饱这群数据大胃王。尤其在多模态任务中,这一问题尤为突出。一筹莫展之际,来自人大系的初创团队,用自家的新模型,率先在国内把“模型生成数据自己喂自己”变成了现实。而且还是理解侧和生成侧双管齐下,两侧都能生成高质量、多模态的新数据,对模型本身进行数据反哺。模型是啥?中关村论坛上刚刚露面的多模态大模型Awaker1.0。团队是谁?智子引擎。由人大高瓴人工智能学院博士生高一钊创立,高

特斯拉机器人Optimus最新视频出炉,已经可以在厂子里打工了。正常速度下,它分拣电池(特斯拉的4680电池)是这样的:官方还放出了20倍速下的样子——在小小的“工位”上,拣啊拣啊拣:这次放出的视频亮点之一在于Optimus在厂子里完成这项工作,是完全自主的,全程没有人为的干预。并且在Optimus的视角之下,它还可以把放歪了的电池重新捡起来放置,主打一个自动纠错:对于Optimus的手,英伟达科学家JimFan给出了高度的评价:Optimus的手是全球五指机器人里最灵巧的之一。它的手不仅有触觉

这周,由OpenAI、微软、贝佐斯和英伟达投资的机器人公司FigureAI宣布获得接近7亿美元的融资,计划在未来一年内研发出可独立行走的人形机器人。而特斯拉的擎天柱也屡屡传出好消息。没人怀疑,今年会是人形机器人爆发的一年。一家位于加拿大的机器人公司SanctuaryAI最近发布了一款全新的人形机器人Phoenix。官方号称它能以和人类一样的速率自主完成很多工作。世界上第一台能以人类速度自主完成任务的机器人Pheonix可以轻轻地抓取、移动并优雅地将每个对象放置在它的左右两侧。它能够自主识别物体的
