Transformer统一化3D目标检测基于体素的表征-人工智能-PHP中文网

首页

科技周边

人工智能

Transformer统一化3D目标检测基于体素的表征

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 08, 2023 pm 09:41 PM

框架 3d

arXiv论文“Unifying Voxel-based Representation with Transformer for 3D Object Detection“，22年6月，香港中文大学、香港大学、旷视科技（纪念孙剑博士）和思谋科技等。

Transformer统一化3D目标检测基于体素的表征

本文提出一个统一的多模态3-D目标检测框架，称为UVTR。该方法旨在统一体素空间的多模态表示，实现准确、稳健的单模态或跨模态3-D检测。为此，首先设计模态特定空间来表示体素特征空间的不同输入。在不进行高度信息（height）压缩的情况下保留体素空间，减轻语义歧义并实现空间交互。基于这种统一方式，提出跨模态交互，充分利用不同传感器的固有特性，包括知识迁移和模态融合。通过这种方式，可以很好地利用点云的几何-觉察表达式和图像中上下文丰富的特征，获得更好的性能和鲁棒性。

transformer解码器用于从具备可学习位置的统一空间中高效采样特征，这有助于目标级交互。一般来说，UVTR代表在统一框架中表示不同模态的早期尝试，在单模态和多模态输入方面优于以往的工作，在nuScenes测试集上取得了领先的性能，激光雷达、相机和多模态输出的NDS分别为69.7%、55.1%和71.1%。

代码：https://github.com/dvlab-research/UVTR.

如图所示：

Transformer统一化3D目标检测基于体素的表征

在表征统一过程中，可以大致分为输入级流和特征级流的表示。对于第一种方法，多模态数据在网络开始时对齐。特别是，图（a）中的伪点云是从预测深度辅助的图像转换而来的，而图（b）中的距离视图图像是从点云投影而来的。由于伪点云的深度不准确和距离视图图像中的3-D几何塌陷，数据的空间结构受到破坏，从而导致较差的结果。对于特征级方法，典型的方法是将图像特征转换为截锥（frustum），然后压缩到BEV空间，如图（c）所示。然而，由于其类似射线的轨迹，每个位置的高度信息（height）压缩聚合了各种目标的特征，因此引入了语义多义。同时，他隐式方式很难支持3-D空间中的显式特征交互，并限制进一步的知识迁移。因此，需要一种更统一的表示法弥合模态的差距，并促进多方面的交互。

本文提出的框架，将基于体素的表示与transformer统一起来。特别是，在基于体素的显式空间中图像和点云的特征表征和交互。对于图像，根据预测的深度和几何约束，从图像平面采样特征来构建体素空间，如图（d）所示。对于点云，准确的位置自然允许特征与体素相关联。然后，引入体素编码器进行空间交互，建立相邻特征之间的关系。这样，跨模态交互自然地与每个体素空间的特征进行。对于目标级交互，采用可变形transformer作为解码器，对统一体素空间中每个位置（x、y、z）的目标查询特定特征进行采样，如图（d）所示。同时，3-D查询位置的引入有效地缓解了BEV空间中高度信息（height）压缩带来的语义多义。

如图是多模态输入的UVTR架构：给定单帧或多帧图像和点云，首先在单个主干进行处理，并将其转换为特定于模态的空间VI和VP，其中视图转换用于图像。在体素编码器中，特征在空间上相互作用，并且知识迁移在训练期间易于支持。根据不同的设置，通过模态开关选择单模态或多模态特征。最后，从具备可学习位置的统一空间VU中采样特征，利用transformer解码器进行预测。

Transformer统一化3D目标检测基于体素的表征

如图是视图变换的细节：

Transformer统一化3D目标检测基于体素的表征

如图是知识迁移的细节：

Transformer统一化3D目标检测基于体素的表征

实验结果如下：

Transformer统一化3D目标检测基于体素的表征

以上是Transformer统一化3D目标检测基于体素的表征的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

AI Hentai Generator

免费生成ai无尽的。

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7484

CakePHP 教程

1377

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

如何评估Java框架商业支持的性价比 Jun 05, 2024 pm 05:25 PM

评估Java框架商业支持的性价比涉及以下步骤：确定所需的保障级别和服务水平协议(SLA)保证。研究支持团队的经验和专业知识。考虑附加服务，如升级、故障排除和性能优化。权衡商业支持成本与风险缓解和提高效率。

PHP 框架的学习曲线与其他语言框架相比如何？ Jun 06, 2024 pm 12:41 PM

PHP框架的学习曲线取决于语言熟练度、框架复杂性、文档质量和社区支持。与Python框架相比，PHP框架的学习曲线更高，而与Ruby框架相比，则较低。与Java框架相比，PHP框架的学习曲线中等，但入门时间较短。

PHP 框架的轻量级选项如何影响应用程序性能？ Jun 06, 2024 am 10:53 AM

轻量级PHP框架通过小体积和低资源消耗提升应用程序性能。其特点包括：体积小，启动快，内存占用低提升响应速度和吞吐量，降低资源消耗实战案例：SlimFramework创建RESTAPI，仅500KB，高响应性、高吞吐量

RedMagic Tablet 3D Explorer Edition 配备裸眼 3D 显示屏 Sep 06, 2024 am 06:45 AM

RedMagic Tablet 3D Explorer Edition 与 Gaming Tablet Pro 一起推出。然而，后者更适合游戏玩家，而前者则更适合娱乐。新款 Android 平板电脑具有该公司所谓的“裸眼 3D”功能

golang框架文档最佳实践 Jun 04, 2024 pm 05:00 PM

编写清晰全面的文档对于Golang框架至关重要。最佳实践包括：遵循既定文档风格，例如Google的Go编码风格指南。使用清晰的组织结构，包括标题、子标题和列表，并提供导航。提供全面准确的信息，包括入门指南、API参考和概念。使用代码示例说明概念和使用方法。保持文档更新，跟踪更改并记录新功能。提供支持和社区资源，例如GitHub问题和论坛。创建实际案例，如API文档。

如何为不同的应用场景选择最佳的golang框架 Jun 05, 2024 pm 04:05 PM

根据应用场景选择最佳Go框架：考虑应用类型、语言特性、性能需求、生态系统。常见Go框架：Gin（Web应用）、Echo（Web服务）、Fiber（高吞吐量）、gorm（ORM）、fasthttp（速度）。实战案例：构建RESTAPI（Fiber），与数据库交互（gorm）。选择框架：性能关键选fasthttp，灵活Web应用选Gin/Echo，数据库交互选gorm。

golang框架开发实战详解：问题答疑 Jun 06, 2024 am 10:57 AM

在Go框架开发中，常见的挑战及其解决方案是：错误处理：利用errors包进行管理，并使用中间件集中处理错误。身份验证和授权：集成第三方库并创建自定义中间件来检查凭据。并发处理：利用goroutine、互斥锁和通道来控制资源访问。单元测试：使用gotest包，模拟和存根进行隔离，并使用代码覆盖率工具确保充分性。部署和监控：使用Docker容器打包部署，设置数据备份，通过日志记录和监控工具跟踪性能和错误。