目录
写在前面&笔者的个人理解
论文信息
研究动机
ReSimAD: 仿真重建感知范式
ReSimAD重建-仿真数据集
实验章节
实验设置
实验结果
总结
首页 科技周边 人工智能 ReSimAD:如何通过虚拟数据提升感知模型的泛化性能

ReSimAD:如何通过虚拟数据提升感知模型的泛化性能

Jan 17, 2024 am 11:33 AM
模型 场景

写在前面&笔者的个人理解

自动驾驶车辆传感器层面的域变化是很普遍的现象,例如在不同场景和位置的自动驾驶车辆,处在不同光照、天气条件下的自动驾驶车辆,搭载了不同传感器设备的自动驾驶车辆,上述这些都可以被考虑为是经典的自动驾驶域差异。这种域差异对于自动驾驶带来了挑战,主要因为依赖于旧域知识的自动驾驶模型很难在没有额外成本的情况下直接部署到一个从未见过的新域。因此在本文,我们提出了一种重建-仿真-感知(ReSimAD)方案,来提供了一种进行域迁移的新视角和方法。具体来说,我们利用隐式重建技术来获取驾驶场景中的旧域知识,重建过程的目的是为了研究如何将旧域中领域相关的知识转换为域不变的表示(Domain-invariant Representations),如,我们认为3D场景级网格表示(3D Mesh Representations)就是一种域不变的表示。基于重建后的结果,我们进一步利用仿真器来产生更加逼真的类目标域的仿真点云,这一步依赖于重建得到的背景信息和目标域的传感器方案,从而降低了后续感知过程中收集和标注新域数据的成本。

我们在实验验证部分考虑了不同的跨域设置,包括Waymo-to-KITTI、Waymo-to-nuScenes、Waymo-to-ONCE等。所有跨域设置都采用zero-shot实验设置,只依赖源域的背景mesh和仿真传感器来进行目标域样本仿真,提升模型泛化能力。结果表明,ReSimAD可极大提升感知模型对目标域场景的泛化能力,甚至比一些无监督领域适配方法还要好。

论文信息

ReSimAD:如何通过虚拟数据提升感知模型的泛化性能

  • 论文题目:ReSimAD: Zero-Shot 3D Domain Transfer for Autonomous Driving with Source Reconstruction and Target Simulation
  • ICLR-2024接收
  • 论文发表单位:上海人工智能实验室,上海交通大学,复旦大学,北京航空航天大学
  • 论文地址:https://arxiv.org/abs/2309.05527
  • 代码地址:仿真数据集和感知部分,https://github.com/PJLab-ADG/3DTrans#resimad;源域重建部分,https://github.com/pjlab-ADG/neuralsim;目标域仿真部分,https://github.com/PJLab-ADG/PCSim

研究动机

挑战:虽然3D模型可以帮助自动驾驶汽车识别周围环境,但现有的基准模型很难推广到新的域(如不同的传感器设置或未见过的城市)。自动驾驶领域的长期愿景是可以以较低的代价让模型可以实现域迁移,即:将一个在源域上充分训练的模型成功地适配到目标域场景,其中源域和目标域分别是存在明显数据分布差异的两个域,如源域是晴天,目标域是雨天;源域是64-beam传感器,目标域是32-beam传感器。

常用的解决思路:面临上述域差异情况,最常见的解决方案是对目标域场景进行数据获取和数据标注,这种方式可以从一定程度上避免域差异带来的模型性能退化的问题,但是存在极大的1)数据采集代价和2)数据标注代价。因此,如下图所示(请看(a)和(b)两基线方法),为了缓解对于一个新域的数据采集和数据标注代价,可以利用仿真引擎来渲染一些仿真点云样本,这是常见的sim-to-real研究工作的解决思路。另一种思路是无监督领域适配(UDA for 3D),这一类工作的目的是研究如何在仅仅接触到无标注的目标域数据(注意是真实数据)的条件下,实现近似全监督微调的性能,如果可以做到这一点,确实省去了为目标域进行标注的代价,但是UDA方法仍然需要采集海量的真实目标域数据来刻画目标域的数据分布。

ReSimAD:如何通过虚拟数据提升感知模型的泛化性能图1:不同训练范式的对比

我们的思路:不同于上述两个类别的研究思路,如下图所示(请看(c)基线流程),我们致力于虚实结合的数据仿真-感知一体化路线,其中虚实结合中的真实是指:基于海量有标签的源域数据,来构建一个域不变(domain-invariant)的表示,这种假设对于很多场景具有实际意义,因为经过长期历史数据积累,我们总可以认为这种有标注的源域数据是存在的;另一方面,虚实结合中的仿真是指:当我们基于源域数据构建了一种域不变(domain-invariant)的表示后,这种表示可以被导入到现有的渲染pipeline中来执行目标域数据仿真。相比于目前sim-to-real这一类研究工作,我们的方法有真实场景级数据作为支撑,包括道路结构、上下坡等真实信息,这些信息是仅仅依赖于仿真引擎本身难以获得的。当获得了类目标域的数据之后,我们将这些数据融入到目前最好的感知模型中,如PV-RCNN,进行训练,然后验证模型在目标域下的精度。整体的详细工作流程请见下图:

ReSimAD:如何通过虚拟数据提升感知模型的泛化性能图2 ReSimAD流程图

ReSimAD的流程图如图2所示,主要包括a) Point-to-Mesh隐式重建过程, b) Mesh-to-point仿真引擎渲染过程, c) 零样本感知过程

ReSimAD: 仿真重建感知范式

a) Point-to-mesh隐式重建过程:受到StreetSurf的启发,我们仅使用激光雷达重建来重建真实而多样的街道场景背景、动态交通流信息。我们首先设计了一个纯点云SDF重建模块(LiDAR-only Implicit Neural Reconstruction,LINR),其优势是可以不受到一些由camera传感所导致的域差异的影响,例如:光照变化、天气条件变化等。纯点云SDF重建模块将LiDAR rays作为输入,然后预测深度信息,最终构建场景3D meshes表示。

具体地,对于从原点ReSimAD:如何通过虚拟数据提升感知模型的泛化性能,方向为ReSimAD:如何通过虚拟数据提升感知模型的泛化性能发射的光线ReSimAD:如何通过虚拟数据提升感知模型的泛化性能,我们对激光雷达应用体渲染来训练Signed Distance Field (SDF)网络,渲染深度D可以公式化为:

ReSimAD:如何通过虚拟数据提升感知模型的泛化性能

其中是第个样本点的采样深度ReSimAD:如何通过虚拟数据提升感知模型的泛化性能,是累积透射率(the accumulated transmittance),是通过使用NeuS中的近距离模型获得的。

从StreetSurf中获得灵感,本文提出的重建过程的模型输入来自于激光雷达射线,输出是预测的深度。在每个采样的激光雷达光束上ReSimAD:如何通过虚拟数据提升感知模型的泛化性能,我们在ReSimAD:如何通过虚拟数据提升感知模型的泛化性能上应用对数L1损失,即组合近景和远景模型的渲染深度:

ReSimAD:如何通过虚拟数据提升感知模型的泛化性能

然而,LINR方法仍然面临一些挑战。由于激光雷达获取到的数据的固有稀疏性,单个激光雷达点云帧仅能捕获标准RGB图像中包含的信息中的一部分信息。这种差异突显了深度渲染在为有效训练提供必要的几何细节方面的潜在不足。因此,这可能导致在所得到的重建网格内产生大量的伪影。为了应对这一挑战,我们提出拼接一个Waymo序列中的所有帧,以此来提升点云的密度。

由于Waymo数据集中顶部激光雷达(Top LiDAR)的垂直视场的限制,仅获得-17.6°至2.4°之间的点云对周围高层建筑的重建存在明显的限制。为了应对这一挑战,我们引入了一种将侧面激光雷达(Side LiDAR)的点云纳入采样序列来进行重建的解决方案。四个补盲雷达分别安装在在自动驾驶车辆的前部、后部和两个侧面,垂直视野达到[-90°, 30°],这有效地补偿了顶部激光雷达的视野范围不足的缺点。由于侧面激光雷达和顶部激光雷达之间的点云密度存在差异,我们选择为侧面激光雷达分配更高的采样权重,以提高高层建筑场景的重建质量。

重建质量评价: 由于动态物体造成的遮挡和激光雷达噪声的影响,隐式表示进行重建可能存在于一定的噪声。因此,我们对重建精度进行了评估。因为我们可以获取到来自于旧领域的海量带标注的点云数据,因此我们可以通过在旧域上进行重新渲染来获取到旧域的仿真点云数据,以此来评价重建mesh的准确性。我们对仿真后的点云和原始真实点云进行度量,使用均方根误差(RMSE)和倒角距离(CD):

ReSimAD:如何通过虚拟数据提升感知模型的泛化性能

其中对于每个序列的重建得分和一些详细过程的描述请参考原文附录。

b) Mesh-to-point仿真引擎渲染过程: 在通过上述LINR方法获得到静态背景mesh后,我们使用Blender Python API将网格数据从.ply格式转换为.fbx格式的3D模型文件,并最终将背景mesh作为资产库加载到用于开源模拟器CARLA中。

我们首先获得Waymo的标注文件,来获取每一个交通参与者的边界框类别和三维物体大小,并根据这些信息,我们在CARLA的数字资产库中搜索同一类别的交通参与者中大小最接近的数字资产,并将这个数字资产导入并作为交通参与者模型。根据CARLA模拟器中可用的场景真实性信息,我们为交通场景中的每个可检测的目标开发了一个检测框提取工具。详细信息请参考,PCSim开发工具。

ReSimAD:如何通过虚拟数据提升感知模型的泛化性能

图3 不同数据集交通参与者物体大小的分布(长、宽、高)。从图3中可以看出,利用这种方法所仿真的物体大小的分布多样性很广,超过了目前已经公开的数据集像KITTI, nuScenes,Waymo, ONCE等。

ReSimAD重建-仿真数据集

我们将Waymo作为源域数据,并且在Waymo上进行重建从而获得较真实的3D mesh。于此同时,我们将KITTI, nuScenes,ONCE作为目标域场景,并且在这些目标域场景下验证我们方法所实现的zero-shot性能。

我们根据上述章节的介绍基于Waymo数据集产生3D场景级的meshes数据,并且利用上述评价准则来在Waymo domain下判断哪些3D meshes是高质量的,并且根据打分选择最高的146个meshes来进行后续的目标域仿真过程。

ReSimAD:如何通过虚拟数据提升感知模型的泛化性能评估结果

关于ResimAD数据集中的一些可视化例子如下图所示:

ReSimAD:如何通过虚拟数据提升感知模型的泛化性能评估结果

实验章节

实验设置

  • 基线选择:我们将所提出的ReSimAD与三种典型的跨域基线进行比较:a)直接使用仿真引擎进行数据仿真的基线;b)通过改变仿真引擎中的传感器参数设置,来进行数据仿真的基线;c)域自适应(UDA)基线.
  • 度量标准:我们对齐目前进行3D cross-domain object detection的评价标准,分别采用基于BEV的和基于3D的AP作为评价度量标准。
  • 参数设置:详情参考论文.

实验结果

这里只展示了主要实验结果,更多结果请参考我们的论文。

三种跨域设置下,PV-RCNN/PV-RCNN++两种模型的适配性能

ReSimAD:如何通过虚拟数据提升感知模型的泛化性能

从上述表格中我们可以观察到:利用无监督域自适应(UDA)技术UDA和ReSimAD之间的主要区别在于,前者使用目标域真实场景的样本进行模型领域迁移,而ReSimAD的实验设置是要求其不能够访问到目标域的任何真实点云数据。从上表中可以看出,我们的ReSimAD所获得的跨域结果与UDA方法所获得的结果是可比较的。这一结果表明,当激光雷达传感器出于商业目的需要升级时,我们的方法可以大大降低数据采集成本,并进一步缩短模型由于领域差异所导致的再训练、再开发周期。

ReSimAD数据作为目标域的冷启动数据,在目标域上可以达到的效果

ReSimAD:如何通过虚拟数据提升感知模型的泛化性能

使用ReSimAD生成的数据的另一个好处是,可以在不访问任何目标域真实数据分布的情况下就能获得高性能的目标域精度。这个过程其实类似于自动驾驶模型在新场景下的“冷启动”过程。

上表报告了在全监督目标域下的实验结果。Oracle代表了模型是在全量带标注目标域数据上训练的结果,而SFT表示基线模型的网络初始化参数是由ReSimAD仿真数据训练的权重提供的。上述实验表格表明,使用我们的ReSimAD方法所仿真的点云可以获得较高的初始化权值参数,其性能超过了Oracle实验设置。

ReSimAD数据作为通用数据集,利用AD-PT预训练方式在不同下游任务上的性能

ReSimAD:如何通过虚拟数据提升感知模型的泛化性能

为了验证ReSimAD是否可以生成更多的点云数据来帮助3D预训练,我们设计了以下实验:使用AD-PT(近期提出的一个关于自动驾驶场景下预训练骨干网络的方法)在仿真的点云上来预训练3D backbone,然后使用下游的真实场景数据进行全参数微调。

  • 我们利用ReSimAD生成具有更广泛分布的点云的数据。为了与AD-PT中的预训练结果进行公平的比较,ReSimAD生成的仿真点云数据的目标量约为。在上述表格中,我们的基线检测器分别在真实预训练数据(ONCE数据集)和仿真预训练数据(由ReSimAD提供)进行3D预训练,使用AD-PT方法,并在KITTI和Waymo数据集上进行下游微调。上表的结果表明,使用不同规模的仿真预训练数据,可以不断提高模型在下游的性能。此外,可以看到由ReSimAD获取的预训练数据的数据获取成本是很低的,相比于采用ONCE进行模型预训练,并且ReSimAD所获得的预训练性能和ONCE数据集上的预训练性能是可比较的。

采用ReSimAD重建仿真 v.s. 采用CARLA默认仿真的可视化对比

ReSimAD:如何通过虚拟数据提升感知模型的泛化性能

我们基于Waymo数据集重建的mesh v.s. 使用VDBFusion重建的可视化对比

ReSimAD:如何通过虚拟数据提升感知模型的泛化性能

总结

在这项工作中,我们致力于研究如何实验零样本目标域模型迁移任务,该任务要求模型不接触到任何来自于目标域的样本数据信息,就可以将源域预训练的模型成功地迁移到目标域场景。不同与之前的工作,我们首次探索了基于源域隐式重建和目标域多样性仿真的3D数据生成技术,并且验证了该技术可以在不接触到目标域数据分布的情况下实现较好的模型迁移性能,甚至比一些无监督领域适配(UDA)的方法还要好。

ReSimAD:如何通过虚拟数据提升感知模型的泛化性能

原文链接:https://mp.weixin.qq.com/s/pmHFDvS7nXy-6AQBhvVzSw

以上是ReSimAD:如何通过虚拟数据提升感知模型的泛化性能的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
3 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

自动驾驶场景中的长尾问题怎么解决? 自动驾驶场景中的长尾问题怎么解决? Jun 02, 2024 pm 02:44 PM

昨天面试被问到了是否做过长尾相关的问题,所以就想着简单总结一下。自动驾驶长尾问题是指自动驾驶汽车中的边缘情况,即发生概率较低的可能场景。感知的长尾问题是当前限制单车智能自动驾驶车辆运行设计域的主要原因之一。自动驾驶的底层架构和大部分技术问题已经被解决,剩下的5%的长尾问题,逐渐成了制约自动驾驶发展的关键。这些问题包括各种零碎的场景、极端的情况和无法预测的人类行为。自动驾驶中的边缘场景"长尾"是指自动驾驶汽车(AV)中的边缘情况,边缘情况是发生概率较低的可能场景。这些罕见的事件

全球最强开源 MoE 模型来了,中文能力比肩 GPT-4,价格仅为 GPT-4-Turbo 的近百分之一 全球最强开源 MoE 模型来了,中文能力比肩 GPT-4,价格仅为 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想象一下,一个人工智能模型,不仅拥有超越传统计算的能力,还能以更低的成本实现更高效的性能。这不是科幻,DeepSeek-V2[1],全球最强开源MoE模型来了。DeepSeek-V2是一个强大的专家混合(MoE)语言模型,具有训练经济、推理高效的特点。它由236B个参数组成,其中21B个参数用于激活每个标记。与DeepSeek67B相比,DeepSeek-V2性能更强,同时节省了42.5%的训练成本,减少了93.3%的KV缓存,最大生成吞吐量提高到5.76倍。DeepSeek是一家探索通用人工智

替代MLP的KAN,被开源项目扩展到卷积了 替代MLP的KAN,被开源项目扩展到卷积了 Jun 01, 2024 pm 10:03 PM

本月初,来自MIT等机构的研究者提出了一种非常有潜力的MLP替代方法——KAN。KAN在准确性和可解释性方面表现优于MLP。而且它能以非常少的参数量胜过以更大参数量运行的MLP。比如,作者表示,他们用KAN以更小的网络和更高的自动化程度重现了DeepMind的结果。具体来说,DeepMind的MLP有大约300,000个参数,而KAN只有约200个参数。KAN与MLP一样具有强大的数学基础,MLP基于通用逼近定理,而KAN基于Kolmogorov-Arnold表示定理。如下图所示,KAN在边上具

AI颠覆数学研究!菲尔兹奖得主、华裔数学家领衔11篇顶刊论文|陶哲轩转赞 AI颠覆数学研究!菲尔兹奖得主、华裔数学家领衔11篇顶刊论文|陶哲轩转赞 Apr 09, 2024 am 11:52 AM

AI,的确正在改变数学。最近,一直十分关注这个议题的陶哲轩,转发了最近一期的《美国数学学会通报》(BulletinoftheAmericanMathematicalSociety)。围绕「机器会改变数学吗?」这个话题,众多数学家发表了自己的观点,全程火花四射,内容硬核,精彩纷呈。作者阵容强大,包括菲尔兹奖得主AkshayVenkatesh、华裔数学家郑乐隽、纽大计算机科学家ErnestDavis等多位业界知名学者。AI的世界已经发生了天翻地覆的变化,要知道,其中很多文章是在一年前提交的,而在这一

你好,电动Atlas!波士顿动力机器人复活,180度诡异动作吓坏马斯克 你好,电动Atlas!波士顿动力机器人复活,180度诡异动作吓坏马斯克 Apr 18, 2024 pm 07:58 PM

波士顿动力Atlas,正式进入电动机器人时代!昨天,液压Atlas刚刚「含泪」退出历史舞台,今天波士顿动力就宣布:电动Atlas上岗。看来,在商用人形机器人领域,波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后,短短十几小时内,就已经有一百多万观看。旧人离去,新角色登场,这是历史的必然。毫无疑问,今年是人形机器人的爆发年。网友锐评:机器人的进步,让今年看起来像人类的开幕式动作、自由度远超人类,但这真不是恐怖片?视频一开始,Atlas平静地躺在地上,看起来应该是仰面朝天。接下来,让人惊掉下巴

谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择 谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择 Apr 01, 2024 pm 07:46 PM

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow,7项指标排名第一。而且测试并不是在JAX性能表现最好的TPU上完成的。虽然现在在开发者中,Pytorch依然比Tensorflow更受欢迎。但未来,也许有更多的大模型会基于JAX平台进行训练和运行。模型最近,Keras团队为三个后端(TensorFlow、JAX、PyTorch)与原生PyTorch实现以及搭配TensorFlow的Keras2进行了基准测试。首先,他们为生成式和非生成式人工智能任务选择了一组主流

特斯拉机器人进厂打工,马斯克:手的自由度今年将达到22个! 特斯拉机器人进厂打工,马斯克:手的自由度今年将达到22个! May 06, 2024 pm 04:13 PM

特斯拉机器人Optimus最新视频出炉,已经可以在厂子里打工了。正常速度下,它分拣电池(特斯拉的4680电池)是这样的:官方还放出了20倍速下的样子——在小小的“工位”上,拣啊拣啊拣:这次放出的视频亮点之一在于Optimus在厂子里完成这项工作,是完全自主的,全程没有人为的干预。并且在Optimus的视角之下,它还可以把放歪了的电池重新捡起来放置,主打一个自动纠错:对于Optimus的手,英伟达科学家JimFan给出了高度的评价:Optimus的手是全球五指机器人里最灵巧的之一。它的手不仅有触觉

DualBEV:大幅超越BEVFormer、BEVDet4D,开卷! DualBEV:大幅超越BEVFormer、BEVDet4D,开卷! Mar 21, 2024 pm 05:21 PM

这篇论文探讨了在自动驾驶中,从不同视角(如透视图和鸟瞰图)准确检测物体的问题,特别是如何有效地从透视图(PV)到鸟瞰图(BEV)空间转换特征,这一转换是通过视觉转换(VT)模块实施的。现有的方法大致分为两种策略:2D到3D和3D到2D转换。2D到3D的方法通过预测深度概率来提升密集的2D特征,但深度预测的固有不确定性,尤其是在远处区域,可能会引入不准确性。而3D到2D的方法通常使用3D查询来采样2D特征,并通过Transformer学习3D和2D特征之间对应关系的注意力权重,这增加了计算和部署的

See all articles