云上智能驾驶三维重建优秀实践
智能驾驶技术的不断发展,正在改变着我们的出行方式和交通系统。作为其中的一个关键技术,三维重建在智能驾驶系统中起着重要的作用。除去车端本身的感知、重建算法,自动驾驶技术的落地与发展需要庞大的云端重建能力支撑,火山引擎多媒体实验室通过行业领先的自研三维重建技术,结合强大的云平台资源与能力,助力相关技术在云端大规模重建、自动标注、真实感仿真等场景的落地与应用。
本文重点介绍火山引擎多媒体实验室三维重建技术在动态、静态场景的以及结合先进光场重建技术的原理与实践,帮助大家能更好的了解和认识云上智能三维重建如何服务智能驾驶领域,助力行业发展。
一、技术挑战与难点
驾驶场景重建需要对道路环境做点云级别的三维重建,与传统的三维重建技术应用场景相比,驾驶场景重建技术有以下难点:
- 车辆运行过程中的环境因素复杂且不可控,不同天气、光照、车速、路况等均会对车载传感器采集到的数据造成影响,这对重建技术的鲁棒性带来了挑战。
- 道路场景中经常会出现特征退化和纹理缺失的情况,例如相机获取到视觉特征不丰富的图像信息,或者激光雷达获取到相似性较高的场景结构信息,同时,路面作为重建中的关键要素之一,色彩单一且缺少足够的纹理信息,这对重建技术提出了更高的要求。
- 车载传感器数量较多,常见的有相机、激光雷达、毫米波雷达、惯导、GPS定位系统、轮速计等等,如何将多传感器的数据融合起来得到更精确的重建结果,对重建技术提出了挑战。
- 道路中存在运动车辆、非机动车、行人等动态物体,会对传统重建算法带来挑战,如何剔除动态物体对静态场景重建带来干扰,同时对动态物体的位置、大小、速度进行估计,也是项目的难点之一。
二、驾驶场景重建技术介绍
自动驾驶领域的重建算法通常会采用激光雷达、相机为主,GPS、惯导为辅的技术路线。激光雷达可以直接获取高精度的测距信息,能够快速得到场景结构,通过预先进行的激光雷达-相机联合标定,相机获取到的图像能够为激光点云赋予色彩、语义等信息。同时,GPS和惯导可以进行辅助定位,减少重建过程中因为特征退化而出现的漂移现象。但是,由于多线激光雷达售价较高,通常用于工程车辆,而在量产车上很难得到规模化的使用。
对此,火山引擎多媒体实验室自研了一套纯视觉的驾驶场景重建技术,包括静态场景重建、动态物体重建和神经辐射场重建技术,能够区分场景中的动静态物体,还原出静态场景的稠密点云,并突出路面、指示牌、红绿灯等关键要素;能够对场景中运动物体的位置、大小、朝向和速度进行有效的估计,用于后续的4D标注;能够在静态场景重建的基础上,使用神经辐射场对场景进行重建和复现,实现自由视角的漫游,可用于场景编辑和仿真渲染。这套技术解决方案不依赖激光雷达,且能够达到分米级的相对误差,用最小的硬件成本实现接近激光雷达的重建效果。
2.1 静态场景重建技术:剔除动态干扰、还原静态场景
视觉重建技术以多视角几何作为基础的理论依据,要求待重建的场景或者物体具有帧间一致性,即在不同图像帧中处在静止状态,因此需要在重建过程中剔除动态物体。根据场景中的不同要素的重要性,稠密点云中需要去除无关紧要的点云,而保留一些关键要素点云,因此需要事先对图像进行语义分割。对此, 火山引擎 多媒体实验室结合AI技术与多视角几何基本原理,搭建了一套先进的鲁棒、精确完整视觉重建算法框架。重建过程包括三个关键步骤 :图像预处理、稀疏重建和稠密重建 。
车载相机拍摄过程中处在运动状态,由于曝光时间的存在,采集到的图像中会随着车速提高而出现严重的运动模糊现象。另外,出于节约带宽和存储空间考虑,传输过程中会对图像进行不可逆的有损压缩,造成画质的进一步降低。为此, 火山引擎多媒体实验室使用了端到端的神经网络对图像进行去模糊处理,能够在抑制运动模糊现象的同时对图像质量进行提升。去模糊前后的对比如下图所示。
去模糊前(左) 去模糊后(右)
为了区分出动态物体,火山引擎多媒体实验室使用了基于光流的动态物体识别技术,能够得到像素级别的动态物体掩膜。在之后的静态场景重建过程中,落在动态物区域上的特征点将被剔除,只有静态的场景和物体将得到保留。
光流(左) 运动物体(右)
稀疏重建过程中需要同时计算相机的位置、朝向和场景点云,常用的有SLAM算法(Simultaneous localization and mapping)和SFM算法(Structure from Motion,简称SfM)。在不要求实时性的情况下,SFM算法能够得到更高的重建精度。但是,传统的SFM算法通常将每个相机当作独立相机来进行处理,而车辆上通常会在前后左右不同方向布置多个相机,这些相机之间的相对位置其实是固定不变的(忽略车辆振动带来的细微变化)。如果忽视相机与相机之间的相对位置约束,计算出来的各相机位姿误差会比较大。另外,当遮挡比较严重时,个别相机的位姿会难以计算。对此,火山引擎多媒体实验室自研了基于相机组整体的SFM算法,能够利用相机之间的先验相对位姿约束,以相机组作为整体来计算位姿,同时使用了GPS加惯导的融合定位结果对相机组中心位置进行约束,可有效地提高位姿估计的成功率和准确率,并能改善不同相机之间的点云不一致现象,减少点云分层现象。
传统SFM(左) 相机组SFM(右)
由于地面色彩单一、纹理缺失,传统的视觉重建很难还原出完整的地面,但是地面上存在车道线、箭头、文字/标识等关键要素,因此火山引擎多媒体实验室采用了二次曲面来拟合地面,辅助进行地面区域的深度估计和点云融合。和平面拟合相比,二次曲面更贴合实际道路场景,因为实际的路面往往并不是一个理想平面。以下是分别用平面方程和二次曲面方程来拟合地面的效果对比。
平面方程(左) 二次曲面方程(右)
将激光点云视作真值,并将视觉重建结果与之叠加,可以直观地衡量重建点云的准确性。从下图中可以看到,重建点云和真值点云贴合度非常高,经过测量得到重建结果的相对误差在15cm左右。
火山引擎多媒体实验室重建结果(彩色)与真值点云(白色)
以下是火山引擎多媒体实验室视觉重建算法和某主流商业重建软件的效果对比。可以看到,和商业软件相比,火山引擎多媒体实验室的自研算法重建效果更好、更完整,场景中的路牌、红绿灯、电线杆,以及路面上车道线、箭头等还原度非常高,而商业软件的重建点云非常稀疏,且路面大范围缺失。
某主流商业软件(左) 火山引擎多媒体实验室算法(右)
2.2 动态重建技术:
在图像上对物体进行3d标注十分困难,需要借助于点云,当车辆只有视觉传感器时,获取场景中目标物体的完整点云十分困难。特别是动态物体,无法使用传统的三维重建技术获取其稠密点云。为提供运动物体的表达,服务于4d标注,使用3d bounding box(以下简称3d bbox)对动态物体进行表示,通过自研动态重建算法获取每一时刻场景中动态物体的3d bbox姿态、大小、速度等,从而补全动态物体重建能力。
动态重建pipeline
对车辆采集的每一帧图像,首先提取场景中的动态目标,生成3d bbox的初始提议,提供两种方式:使用2d目标检测,通过相机位姿估计对应的3d bbox;直接使用3d目标检测。两种方式针对不同数据可以灵活进行选择,2d检测泛化性好,3d检测可以获得更好的初值。同时,对图像动态区域内部的特征点进行提取。获取单帧图像初始3d bbox提议及特征点后,建立多帧间数据关联:通过自研多目标跟踪算法建立物体匹配,并通过特征匹配技术对图像特征进行匹配。获取匹配关系后,将有共视关系的图像帧创建为局部地图,构建优化问题求解全局一致的目标bbox估计。具体地,通过特征点的匹配以及动态三角化技术,恢复动态3d点;对车辆运动建模,联合优化物体、3d点、相机之间的观测,从而获得最优估计的动态物体3d bbox。
2d生成3d(左二) 3d目标检测示例
2.3 NeRF 重建:真实感渲染、自由视角
使用神经网络进行隐式重建,利用可微渲染模型,从已有视图中学习如何渲染新视角下的图像,从而实现照片级逼真的图像渲染, 即神经辐射场(NeRF)技术。同时,隐式重建具有可编辑、查询连续空间的特性,可以用于自动驾驶场景中自动标注、仿真数据构建等任务。使用NeRF技术对场景进行重建是非常有价值的。
火山引擎多媒体实验室融合神经辐射场技术与大场景建模技术。在具体实践中,首先针对数据进行处理,场景中的动态物体会使NeRF重建出现伪影,借助自研动静态分割、影子检测等算法,对场景中和几何不一致的区域进行提取,生成mask,同时利用视频inpainting算法,对剔除掉的区域进行修复。借助自研三维重建能力,对场景进行高精度的几何重建,包括相机参数估计以及稀疏、稠密点云生成。另外,对场景进行拆分以减小单次训练资源消耗,并可做分布式训练、维护。在神经辐射场训练过程中,针对室外无边界大场景,团队通过一些优化策略以提升该场景下的新视角生成效果,如通过在训练中同时优化位姿提高重建精度,基于哈希编码的层次化表达提升模型训练速度,借助外观编码提升不同时间采集场景的外观一致性等,借助mvs稠密深度信息提升几何精度等。团队同毫末智行合作,完成单路采集以及多路合并的NeRF重建,相关成果已在毫末AI Day发布。
动态物/影子剔除,填补
以上是云上智能驾驶三维重建优秀实践的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

本站7月31日消息,科技巨头亚马逊于周二在美国特拉华州联邦法院起诉了芬兰电信公司诺基亚,指控其侵犯了亚马逊十几项与云计算技术相关的专利。1.亚马逊在诉讼中表示,诺基亚滥用了亚马逊云计算服务(AWS)的相关技术,包括云计算基础设施、安全和性能方面的技术,来加强其自身的云服务产品。诉状称,亚马逊于2006年推出了AWS,其开创性的云计算技术早在2000年代初期就开始研发。“亚马逊是云计算领域的先驱,现在诺基亚却在未经许可的情况下使用亚马逊的专利云计算创新成果,”诉状中写道。亚马逊要求法院发布禁令,阻

2024年5月9日消息,据报道,今年北京国际汽车展览上,长城汽车旗下魏牌推出了一款新车型——蓝山智驾版,吸引了众多参观者的目光。据“懂车帝视线”透露,这款备受瞩目的新车有望于今年6月正式登陆市场。蓝山智驾版在设计上继续沿用了在售蓝山DHT-PHEV的经典外观,但在智能驾驶感知方面进行了显着的升级。最为引人注目的是,车顶上安装了一个瞭望塔式的激光雷达,同时,车辆还配备了3个毫米波雷达和12个超声波雷达,以及11个高清视觉感知摄像头,总共达到了27个辅助驾驶传感器,大大增强了车辆的环境感知能力。根据

2007年5月9日消息,自2007年登录中国市场后,大众迈腾借其源于德国原型车的精湛工艺和全面性能,已在中国累积销售超过200万辆汽车,赢得了广大消费者的认可。近期,备受期待的全新一代大众迈腾(B9迈腾)将于6月正式登场,带来一场全方位的升级革新。全新迈腾在外观设计和内饰布局上均进行了大刀阔斧的改革。最显着的变化在于,新车型采纳了大疆前沿的智能驾驶技术,显着提升了自动驾驶和辅助驾驶的智能化水平。在外观设计方面,新款迈腾更加细长的前大灯设计,结合贯穿式灯带和发光LOGO,打造出更加宽阔的车头视觉效

为了实现C++云应用程序的有效部署,最佳实践包括:容器化部署,使用Docker等容器。采用CI/CD,自动化发布过程。使用版本控制,管理代码更改。实施日志记录和监控,跟踪应用程序运行状况。使用自动扩展,优化资源利用率。利用云管理服务,管理应用程序基础设施。采用水平伸缩和垂直伸缩,根据需求调整应用程序容量。

4月30日消息,北京车展期间,小鹏汽车展示了其未来全球化的宣传蓝图。据小鹏汽车的法国市场营销总监托马斯·罗迪尔在接受CGTN的专访中透露,随着欧洲市场对电动车需求的不断增长,小鹏汽车正凭借其全球领先的智能电动车技术,积极筹划进军法国以及其他欧洲市场。罗迪尔强调,小鹏汽车以其卓越的智能充电、电驱动技术,已经在中国市场赢得了热烈的反响。他信心满满地表示,这些先进技术同样能为欧洲消费者带来卓越的智能出行体验。因此,小鹏汽车计划于5月正式进入法国市场,并紧锣密鼓地筹备在其他欧洲市场的拓展。本月,小鹏汽车

到2024年为止,三大云计算巨头的增长没有任何放缓迹象,亚马逊、微软和谷歌在云计算领域的收入都比往任何时候都多。这三家云供应商最近公布了财报,它们均延续了多年的持续收入增长策略。4月25日,谷歌和微软均公布了业绩。Alphabet2024财年第一季度,谷歌云收入为95.7亿美元,同比增长28%。微软的云收入为351亿美元,同比增长23%。4月30日,亚马逊网络服务(AWS)报告称其营收为250亿美元,同比增长17%,位列三大巨头之列。云计算提供商有很多值得高兴的事情,三大市场领导者的增长率在过去

Java云迁移涉及将应用程序和数据迁移到云平台,以获得扩展、弹性和成本优化等好处。最佳实践包括:全面评估迁移资格和潜在挑战。分阶段迁移以降低风险。采用云优先原则,尽可能构建云原生应用程序。使用容器化简化迁移和提高可移植性。利用自动化简化迁移过程。云迁移步骤涵盖规划和评估、准备目标环境、迁移应用程序、迁移数据、测试和验证,以及优化和监控。通过遵循这些实践,Java开发人员可以成功地迁移到云平台,从而获得云计算的好处,通过自动化和分阶段迁移,可降低风险,确保成功迁移。

在8月6日下午召开的鸿蒙智行享界S9及华为全场景新品发布会的最后,余承东放出了一项与众多鸿蒙智行车主有关的重磅消息。1.余承东在发布会结尾处表示,鸿蒙智行旗下的问界M5、问界M7、问界M9和智界S7四款车型将从今年9月开始陆续推送最新的HUAWEIADS3.0高阶智能驾驶系统,这意味着鸿蒙智行旗下全系车型在智驾方面将会迎来重大升级。据了解,HUAWEIADS3.0高阶智能驾驶系统首发搭载于享界S9上,其采用了GOD神经网络,实现了从基本的物体识别到全面理解驾驶场景的跨越式提升,从而增强了驾驶安全
