首页 科技周边 人工智能 CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步

Mar 25, 2024 pm 06:56 PM
工程 sam-6d

在许多实际应用中,物体姿态估计扮演着关键角色,比如在具身智能、机器人操作和增强现实等领域。

在这一领域中,最先受到关注的任务是实例级别 6D 姿态估计,其需要关于目标物体的带标注数据进行模型训练,使深度模型具有物体特定性,无法迁移应用到新物体上。后来研究热点逐步转向类别级别 6D 姿态估计,用于处理未见过的物体,但要求该物体属于已知的感兴趣类别。

零样本 6D 姿态估计是一种更具泛化性的任务设置,给定任意物体的 CAD 模型,旨在场景中检测出该目标物体,并估计其 6D 姿态。尽管其具有重要意义,这种零样本的任务设置在物体检测和姿态估计方面都面临着巨大的挑战。

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步

                               图 1. 零样本 6D 物体姿态估计任务示意

最近,分割一切模型 SAM [1] 备受关注,其出色的零样本分割能力令人瞩目。SAM 通过各种提示,如像素点、包围框、文本和掩膜等,实现高精度的分割,这也为零样本 6D 物体姿态估计任务提供了可靠的支撑, 展现了其前景的潜力。

因此,一项新的零样本 6D 物体姿态估计框架 SAM-6D 被跨维智能、香港中文大学(深圳)、华南理工大学的研究人员提出。这一研究成果已经受到 CVPR 2024 的认可。

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步

  • 论文链接: https://arxiv.org/pdf/2311.15707.pdf

  • 代码链接: https://github.com/JiehongLin/SAM-6D

SAM-6D 通过两个步骤来实现零样本 6D 物体姿态估计,包括实例分割和姿态估计。相应地,给定任意目标物体,SAM-6D 利用两个专用子网络,即实例分割模型(ISM)和姿态估计模型(PEM),来从 RGB-D 场景图像中实现目标;其中,ISM 将 SAM 作为一个优秀的起点,结合精心设计的物体匹配分数来实现对任意物体的实例分割,PEM 通过局部到局部的两阶段点集匹配过程来解决物体姿态问题。SAM-6D 的总览如图 2 所示。

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步

                                 图 2. SAM-6D 总览图

总体来说,SAM-6D 的技术贡献可概括如下:

  • SAM-6D 是一个创新的零样本 6D 姿态估计框架,通过给定任意物体的 CAD 模型,实现了从 RGB-D 图像中对目标物体进行实例分割和姿态估计,并在 BOP [2] 的七个核心数据集上表现优异。

  • SAM-6D 利用分割一切模型的零样本分割能力,生成了所有可能的候选对象,并设计了一个新颖的物体匹配分数,以识别与目标物体对应的候选对象。

  • SAM-6D 将姿态估计视为一个局部到局部的点集匹配问题,采用了一个简单但有效的 Background Token 设计,并提出了一个针对任意物体的两阶段点集匹配模型;第一阶段实现粗糙的点集匹配以获得初始物体姿态,第二阶段使用一个新颖的稀疏到稠密点集变换器以进行精细点集匹配,从而对姿态进一步优化。

实例分割模型 (ISM)

SAM-6D 使用实例分割模型(ISM)来检测和分割出任意物体的掩膜。

给定一个由 RGB 图像表征的杂乱场景,ISM 利用分割一切模型(SAM)的零样本迁移能力生成所有可能的候选对象。对于每个候选对象,ISM 为其计算一个物体匹配分数,以估计其与目标物体之间在语义、外观和几何方面的匹配程度。最后通过简单设置一个匹配阈值,即可识别出与目标物体所匹配的实例。

物体匹配分数的计算通过三个匹配项的加权求和得到:

语义匹配项 —— 针对目标物体,ISM 渲染了多个视角下的物体模板,并利用 DINOv2 [3] 预训练的 ViT 模型提取候选对象和物体模板的语义特征,计算它们之间的相关性分数。对前 K 个最高的分数进行平均即可得到语义匹配项分数,而最高相关性分数对应的物体模板视为最匹配模板。

外观匹配项 —— 对于最匹配模板,利用 ViT 模型提取图像块特征,并计算其与候选对象的块特征之间的相关性,从而获得外观匹配项分数,用于区分语义相似但外观不同的物体。

几何匹配项 —— 鉴于不同物体的形状和大小差异等因素,ISM 还设计了几何匹配项分数。最匹配模板对应的旋转与候选对象点云的平均值可以给出粗略的物体姿态,利用该姿态对物体 CAD 模型进行刚性变换并投影可以得到边界框。计算该边界框与候选边界框的交并比(IoU)则可得几何匹配项分数。

姿态估计模型 (PEM)

对于每个与目标物体匹配的候选对象,SAM-6D 利用姿态估计模型(PEM)来预测其相对于物体 CAD 模型的 6D 姿态。 

将分割的候选对象和物体 CAD 模型的采样点集分别表示为CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步,其中 N_m 和 N_o 表示它们点的数量;同时,将这两个点集的特征表示为CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步,C 表示特征的通道数。PEM 的目标是得到一个分配矩阵,用于表示从 P_m 到 P_o 之间的局部到局部对应关系;由于遮挡的原因,P_o 只部分与匹配 P_m,而由于分割不准确性和传感器噪声,P_m 也只部分与匹配 P_o。

为了解决两个点集非重叠点的分配问题,ISM 为它们分别配备了 Background Token,记为 CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步,则可以基于特征相似性有效地建立局部到局部对应关系。具体来说,首先可以计算注意力矩阵如下:

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步

接着可得分配矩阵

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步 分别表示沿着行和列的 softmax 操作,CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步 表示一个常数。CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步 中的每一行的值(除了首行),表示点集 P_m 中每个点 P_m 与背景及 P_o 中点的匹配概率,通过定位最大分数的索引,则可以找到与 P_m 匹配的点(包括背景)。

一旦计算获得 CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步 ,则可以聚集所有匹配点对 {(P_m,P_o)} 以及它们的匹配分数,最终利用加权 SVD 计算物体姿态。

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步

                                 图 3. SAM-6D 中姿态估计模型 (PEM) 的示意图

利用上述基于 Background Token 的策略,PEM 中设计了两个点集匹配阶段,其模型结构如图 3 所示,包含了特征提取、粗略点集匹配和精细点集匹配三个模块。

粗糙点集匹配模块实现稀疏对应关系,以计算初始物体姿态,随后利用该姿态来对候选对象的点集进行变换,从而实现位置编码的学习。

精细点集匹配模块结合候选对象和目标物体的采样点集的位置编码,从而注入第一阶段的粗糙对应关系,并进一步建立密集对应关系以得到更精确的物体姿态。为了在这一阶段有效地学习密集交互,PEM 引入了一个新颖的稀疏到稠密点集变换器,它实现在密集特征的稀疏版本上的交互,并利用 Linear Transformer [5] 将增强后的稀疏特征扩散回密集特征。

实验结果

对于 SAM-6D 的两个子模型,实例分割模型(ISM)是基于 SAM 构建而成的,无需进行网络的重新训练和 finetune,而姿态估计模型(PEM)则利用 MegaPose [4] 提供的大规模 ShapeNet-Objects 和 Google-Scanned-Objects 合成数据集进行训练。

为验证其零样本能力,SAM-6D 在 BOP [2] 的七个核心数据集上进行了测试,包括了 LM-O,T-LESS,TUD-L,IC-BIN,ITODD,HB 和 YCB-V。表 1 和表 2 分别展示了不同方法在这七个数据集上的实例分割和姿态估计结果的比较。相较于其他方法,SAM-6D 在两个方法上的表现均十分优异,充分展现其强大的泛化能力。

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步

                               表 1. 不同方法在 BOP 七个核心数据集上的实例分割结果比较

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步

                                  表 2. 不同方法在 BOP 七个核心数据集上的姿态估计结果比较

图 4 展示了 SAM-6D 在 BOP 七个数据集上的检测分割以及 6D 姿态估计的可视化结果,其中 (a) 和 (b) 分别为测试的 RGB 图像和深度图,(c) 为给定的目标物体,而 (d) 和 (e) 则分别为检测分割和 6D 姿态的可视化结果。

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步

                                    图 4. SAM-6D 在 BOP 的七个核心数据集上的可视化结果。

关于 SAM-6D 的更多实现细节, 欢迎阅读原论文.

参考文献:

[1] Alexander Kirillov et. al.,“Segment anything.”

[2] Martin Sundermeyer et. al.,“Bop challenge 2022 on detection, segmentation and pose estimation of specific rigid objects.”

[3] Maxime Oquab et. al.,“Dinov2: Learning robust visual features without supervision.”

[4] Yann Labbe et. al.,“Megapose: 6d pose estimation of novel objects via render & compare.”

[5] Angelos Katharopoulos et. al., “Transformers are rnns: Fast autoregressive

transformers with linear attention.”

以上是CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

ControlNet作者又出爆款!一张图生成绘画全过程,两天狂揽1.4k Star ControlNet作者又出爆款!一张图生成绘画全过程,两天狂揽1.4k Star Jul 17, 2024 am 01:56 AM

同样是图生视频,PaintsUndo走出了不一样的路线。ControlNet作者LvminZhang又开始整活了!这次瞄准绘画领域。新项目PaintsUndo刚上线不久,就收获1.4kstar(还在疯狂涨)。项目地址:https://github.com/lllyasviel/Paints-UNDO通过该项目,用户输入一张静态图像,PaintsUndo就能自动帮你生成整个绘画的全过程视频,从线稿到成品都有迹可循。绘制过程,线条变化多端甚是神奇,最终视频结果和原图像非常相似:我们再来看一个完整的绘

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」 从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智能领域的发展过程中,对大语言模型(LLM)的控制与指导始终是核心挑战之一,旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法(RL

登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题 登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题 Jul 17, 2024 pm 10:02 PM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com这篇论文的作者均来自伊利诺伊大学香槟分校(UIUC)张令明老师团队,包括:StevenXia,四年级博士生,研究方向是基于AI大模型的自动代码修复;邓茵琳,四年级博士生,研究方

OpenAI超级对齐团队遗作:两个大模型博弈一番,输出更好懂了 OpenAI超级对齐团队遗作:两个大模型博弈一番,输出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型给的答案一点也看不懂,你敢用吗?随着机器学习系统在更重要的领域得到应用,证明为什么我们可以信任它们的输出,并明确何时不应信任它们,变得越来越重要。获得对复杂系统输出结果信任的一个可行方法是,要求系统对其输出产生一种解释,这种解释对人类或另一个受信任的系统来说是可读的,即可以完全理解以至于任何可能的错误都可以被发现。例如,为了建立对司法系统的信任,我们要求法院提供清晰易读的书面意见,解释并支持其决策。对于大型语言模型来说,我们也可以采用类似的方法。不过,在采用这种方法时,确保语言模型生

黎曼猜想显着突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 黎曼猜想显着突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近,被称为千禧年七大难题之一的黎曼猜想迎来了新突破。黎曼猜想是数学中一个非常重要的未解决问题,与素数分布的精确性质有关(素数是那些只能被1和自身整除的数字,它们在数论中扮演着基础性的角色)。在当今的数学文献中,已有超过一千条数学命题以黎曼猜想(或其推广形式)的成立为前提。也就是说,黎曼猜想及其推广形式一旦被证明,这一千多个命题将被确立为定理,对数学领域产生深远的影响;而如果黎曼猜想被证明是错误的,那么这些命题中的一部分也将随之失去其有效性。新的突破来自MIT数学教授LarryGuth和牛津大学

公理训练让LLM学会因果推理:6700万参数模型比肩万亿参数级GPT-4 公理训练让LLM学会因果推理:6700万参数模型比肩万亿参数级GPT-4 Jul 17, 2024 am 10:14 AM

把因果链展示给LLM,它就能学会公理。AI已经在帮助数学家和科学家做研究了,比如著名数学家陶哲轩就曾多次分享自己借助GPT等AI工具研究探索的经历。AI要在这些领域大战拳脚,强大可靠的因果推理能力是必不可少的。本文要介绍的这项研究发现:在小图谱的因果传递性公理演示上训练的Transformer模型可以泛化用于大图谱的传递性公理。也就是说,如果让Transformer学会执行简单的因果推理,就可能将其用于更为复杂的因果推理。该团队提出的公理训练框架是一种基于被动数据来学习因果推理的新范式,只有演示

arXiv论文可以发「弹幕」了,斯坦福alphaXiv讨论平台上线,LeCun点赞 arXiv论文可以发「弹幕」了,斯坦福alphaXiv讨论平台上线,LeCun点赞 Aug 01, 2024 pm 05:18 PM

干杯!当论文讨论细致到词句,是什么体验?最近,斯坦福大学的学生针对arXiv论文创建了一个开放讨论论坛——alphaXiv,可以直接在任何arXiv论文之上发布问题和评论。网站链接:https://alphaxiv.org/其实不需要专门访问这个网站,只需将任何URL中的arXiv更改为alphaXiv就可以直接在alphaXiv论坛上打开相应论文:可以精准定位到论文中的段落、句子:右侧讨论区,用户可以发表问题询问作者论文思路、细节,例如:也可以针对论文内容发表评论,例如:「给出至

无限生成视频,还能规划决策,扩散强制整合下一token预测与全序列扩散 无限生成视频,还能规划决策,扩散强制整合下一token预测与全序列扩散 Jul 23, 2024 pm 02:05 PM

当前,采用下一token预测范式的自回归大型语言模型已经风靡全球,同时互联网上的大量合成图像和视频也早已让我们见识到了扩散模型的强大之处。近日,MITCSAIL的一个研究团队(一作为MIT在读博士陈博远)成功地将全序列扩散模型与下一token模型的强大能力统合到了一起,提出了一种训练和采样范式:DiffusionForcing(DF)。论文标题:DiffusionForcing:Next-tokenPredictionMeetsFull-SequenceDiffusion论文地址:https:/

See all articles