目录
综述结构
总结
首页 科技周边 人工智能 系统调研揭示下一代自动驾驶系统的不可或缺的大模型

系统调研揭示下一代自动驾驶系统的不可或缺的大模型

Dec 16, 2023 pm 02:21 PM
ai 模型 自动驾驶

随着大语言模型(LLM)和视觉基础模型(VFM)的出现,有望通过大模型的多模态人工智能系统实现像人类一样全面感知现实世界和做出决策。近几个月来,LLM在自动驾驶研究领域引起了广泛关注。尽管LLM具有巨大潜力,但在驾驶系统中仍然存在关键挑战、机遇和未来研究方向,这些方面目前缺乏详细的阐明

在本文中,腾讯地图、普渡大学、UIUC、弗吉尼亚大学的研究人员对这个领域进行了系统调研。该研究首先介绍了多模态大型语言模型 (MLLM) 的背景,使用 LLM 开发多模态模型的进展,以及对自动驾驶的历史进行回顾。然后,该研究概述了用于驾驶、交通和地图系统的现有 MLLM 工具,以及现有的数据集。该研究还总结了第一届 WACV 大语言和视觉模型自动驾驶研讨会 (LLVM-AD) 的相关工作,这是应用 LLM 在自动驾驶领域的首个研讨会。为了进一步推动这一领域的发展,该研究还讨论了关于如何在自动驾驶系统中应用 MLLM,以及需要由学术界和工业界共同解决的一些重要问题。

系统调研揭示下一代自动驾驶系统的不可或缺的大模型


  • 综述链接:https://arxiv.org/abs/2311.12320 
  • 研讨会链接:https://llvm-ad.github.io/ 
  • Github 链接:https://github.com/IrohXu/Awesome-Multimodal-LLM-Autonomous-Driving

系统调研揭示下一代自动驾驶系统的不可或缺的大模型

综述结构

近期多模态大语言模型(MLLM)备受关注,该模型将LLM的推理能力与图像、视频和音频数据相结合,通过多模态对齐使得这些数据能够更高效地执行各种任务,包括图像分类、将文本与相应的视频对齐以及语音检测。此外,一些研究表明LLM可以处理机器人领域的简单任务,但是,目前在自动驾驶领域中,MLLM的整合进展缓慢,是否有潜力改良现有的自动驾驶系统,例如像GPT-4、PaLM-2和LLaMA-2这样的LLM,仍需进一步研究探索

研究人员在本综述中认为,将LLM整合到自动驾驶领域可以带来显著的范式转变,从而在驾驶感知、运动规划、人车交互和运动控制方面为用户提供更适应性更强、更可信的未来交通方案。在感知方面,LLM可以利用工具学习(Tool Learning)调用外部API访问实时信息源,如高精度地图、交通报告和天气信息,从而使车辆更全面地理解周围环境。自动驾驶汽车可以通过LLM推理拥堵路线并建议替代路径以提高效率和安全驾驶。在运动规划和人车交互方面,LLM可以促进以用户为中心的沟通,使乘客能够用日常语言表达他们的需求和偏好。在运动控制方面,LLM首先使控制参数可以根据驾驶者的偏好进行定制,实现了驾驶体验的个性化。此外,LLM还可以通过解释运动控制过程的每个步骤来提供对用户的透明度。该综述预计,在未来的SAE L4-L5级别的自动驾驶车辆中,乘客可以使用语言、手势甚至眼神来传达他们的请求,由MLLM通过集成视觉显示或语音响应来提供实时的车内和驾驶反馈

系统调研揭示下一代自动驾驶系统的不可或缺的大模型


系统调研揭示下一代自动驾驶系统的不可或缺的大模型自动驾驶和多模态大语言模型的发展历程


系统调研揭示下一代自动驾驶系统的不可或缺的大模型

自动驾驶 MLLM 的研究总结:当前模型的 LLM 框架主要有 LLaMA、Llama 2、GPT-3.5、GPT-4、Flan5XXL、Vicuna-13b。FT、ICL 和 PT 在本表中指的是微调、上下文学习和预训练。文献链接可以参考 github repo: https://github.com/IrohXu/Awesome-Multimodal-LLM-Autonomous-Driving

为了构建自动驾驶和LLVM之间的桥梁,相关研究人员在2024年IEEE/CVF冬季计算机视觉应用会议(WACV)上组织了首届大语言和视觉模型自动驾驶研讨会(LLVM-AD)。该研讨会旨在增强学术研究人员和行业专业人士之间的合作,探讨在自动驾驶领域实施多模态大型语言模型的可能性和挑战。LLVM-AD将进一步推动后续的开源实际交通语言理解数据集的发展

首届WACV大型语言和视觉模型自动驾驶研讨会(LLVM-AD)共接受了九篇论文。其中一些论文围绕着自动驾驶中的多模态大语言模型展开,重点关注将LLM整合到用户-车辆交互、运动规划和车辆控制中。还有几篇论文探讨了LLM在自动驾驶车辆中类人交互和决策方面的新应用。例如,“模仿人类驾驶”和“按语言驾驶”探讨了LLM在复杂驾驶场景中的解释和推理,以及模仿人类行为的框架。另外,“以人为中心的自主系统与LLM”强调了将用户置于设计LLM的中心地位,利用LLM来解释用户指令。这种方法代表了朝着以人为中心的自主系统的重要转变。除了融合LLM,研讨会还涵盖了一些基于纯视觉和数据处理的方法。此外,研讨会还提出了创新的数据处理和评估方法。例如,NuScenes-MQA介绍了一种新的自动驾驶数据集注释方案。总的来说,这些论文展示了将语言模型和先进技术整合到自动驾驶中取得的进展,为更直观、高效和以人为中心的自动驾驶车辆铺平了道路

为了未来的发展,这项研究提出了以下几个研究方向:

需要被重写的内容是:1、自动驾驶中多模态大语言模型的新数据集

尽管大语言模型在语言理解方面取得了成功,但将其应用于自动驾驶仍面临挑战。这是因为这些模型需要整合和理解来自不同模态的输入,如全景图像、三维点云和高精地图。目前的数据规模和质量的限制意味着现有数据集难以全面应对这些挑战。此外,从 NuScenes 等早期开源数据集注释的视觉语言数据集可能无法为驾驶场景中的视觉语言理解提供稳健的基准。因此,迫切需要新的、大规模的数据集,涵盖广泛的交通和驾驶场景,弥补之前数据集分布的长尾(不均衡)问题,以有效地测试和增强这些模型在自动驾驶应用中的性能。

2、自动驾驶中大型语言模型所需的硬件支持

自动驾驶汽车中不同的功能对硬件的需求各不相同。在车辆内部使用 LLM 进行驾驶规划或参与车辆控制需要实时处理和低延迟以确保安全,这增加了计算需求并影响功耗。如果 LLM 部署在云端,数据交换的带宽将成为另一个关键的安全因素。相比之下,将 LLM 用于导航规划或分析与驾驶无关的命令(如车载音乐播放)不需要高查询量和实时性,使得远程服务成为可行的方案。未来,自动驾驶中的 LLM 可以通过知识蒸馏进行压缩,以减少计算需求和延迟,目前在这一领域仍然有很大发展空间。

3、使用大语言模型理解高精地图

高精度地图在自动驾驶车辆技术中起着至关重要的作用,因为它们提供了有关车辆运行的物理环境的基本信息。高精度地图中的语义地图层非常重要,因为它捕获了物理环境的意义和上下文信息。为了有效地将这些信息编码到下一代由腾讯高精地图AI自动标注系统驱动的自动驾驶中,需要新的模型来将这些多模态特征映射到语言空间。腾讯已经开发了基于主动学习的THMA高精地图AI自动标注系统,能够生产和标记数十万公里规模的高精度地图。为了促进这一领域的发展,腾讯在THMA的基础上提出了MAPLM数据集,包含全景图像、三维激光雷达点云和基于上下文的高精度地图注释,以及一个新的问答基准MAPLM-QA

4、人车交互中的大语言模型

人车交互以及理解人类的驾驶行为,在自动驾驶中也构成了一个重大挑战。人类驾驶员常常依赖非语言信号,例如减速让路或使用肢体动作与其他驾驶员或行人交流。这些非语言信号在道路上的交流中扮演着至关重要的角色。过去有许多涉及自动驾驶系统的事故是因为自动驾驶汽车的行为往往出乎其他驾驶员意料。未来,MLLM 能够整合来自各种来源的丰富上下文信息,并分析驾驶员的视线、手势和驾驶风格,以更好地理解这些社交信号并做出高效规划。通过估计其他驾驶员的社交信号,LLM 可以提高自动驾驶汽车的决策能力和整体安全性。

个性化自动驾驶

随着自动驾驶汽车的发展,一个重要的方面是考虑它们如何适应用户个人的驾驶偏好。越来越多的人认为,自动驾驶汽车应该模仿其用户的驾驶风格。为了实现这一点,自动驾驶系统需要学习并整合用户在各个方面的偏好,如导航、车辆维护和娱乐。LLM 的指令调整 (Instruction Tunning) 能力和上下文学习能力使其非常适合将用户偏好和驾驶历史信息整合到自动驾驶汽车中,从而提供个性化的驾驶体验。

总结

多年来,自动驾驶一直是人们关注的焦点,吸引着众多风险投资人。将 LLM 集成到自动驾驶汽车中会带来独特的挑战,但克服这些挑战将显着增强现有的自动驾驶系统。可以预见的是,LLM 支持的智能座舱具备理解驾驶场景和用户偏好的能力,并在车辆与乘员之间建立更深层次的信任。此外,部署 LLM 的自动驾驶系统将可以更好地应对道德困境,涉及权衡行人的安全与车辆乘员的安全,促进在复杂的驾驶场景中更可能符合道德的决策过程。本文集成了 WACV 2024 LLVM-AD 研讨会委员会成员的见解,旨在激励研究人员为开发由 LLM 技术支持的下一代自动驾驶汽车做出贡献。

以上是系统调研揭示下一代自动驾驶系统的不可或缺的大模型的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

web3交易平台排行榜_web3全球交易所前十名汇总 web3交易平台排行榜_web3全球交易所前十名汇总 Apr 21, 2025 am 10:45 AM

币安是全球数字资产交易生态的霸主,其特点包括:1. 日均交易量突破$1500亿,支持500 交易对,覆盖98%主流币种;2. 创新矩阵涵盖衍生品市场、Web3布局和教育体系;3. 技术优势为毫秒级撮合引擎,峰值处理量达140万笔/秒;4. 合规进展持有15国牌照,并在欧美设立合规实体。

ETH 升级后新手如何规避亏损 ETH 升级后新手如何规避亏损 Apr 21, 2025 am 10:03 AM

新手在ETH升级后应采取以下策略规避亏损:1.做好功课,了解ETH基本知识和升级内容;2.控制仓位,小额试水并分散投资;3.制定交易计划,明确目标并设定止损点;4.理性分析,避免情绪化决策;5.选择正规可靠的交易平台;6.考虑长期持有,避免短期波动影响。

十大加密货币交易所平台 世界最大的数字货币交易所榜单 十大加密货币交易所平台 世界最大的数字货币交易所榜单 Apr 21, 2025 pm 07:15 PM

在当今的加密货币市场中,交易所扮演着至关重要的角色,它们不仅是投资者进行买卖交易的平台,更是市场流动性和价格发现的重要来源。全球最大的虚拟货币交易所排行前十,这些交易所不仅在交易量上遥遥领先,而且在用户体验、安全性和创新服务方面也各有千秋。排行榜首的交易所通常拥有庞大的用户基础和广泛的市场影响力,它们的交易量和资产种类往往是其他交易所难以企及的。

跨链交易什么意思?跨链交易所有哪些? 跨链交易什么意思?跨链交易所有哪些? Apr 21, 2025 pm 11:39 PM

支持跨链交易的交易所有:1. Binance,2. Uniswap,3. SushiSwap,4. Curve Finance,5. Thorchain,6. 1inch Exchange,7. DLN Trade,这些平台通过各种技术支持多链资产交易。

币圈交易所前十的平台是哪些? 币圈交易所前十的平台是哪些? Apr 21, 2025 pm 12:21 PM

头部交易所包括:1. 币安(Binance),全球最大交易量,支持600 币种,现货手续费0.1%;2. OKX,均衡型平台,支持708交易对,永续合约手续费0.05%;3. Gate.io,覆盖2700 小币种,现货手续费0.1%-0.3%;4. Coinbase,美国合规标杆,现货手续费0.5%;5. Kraken,安全性顶尖,定期储备审计。

币圈杠杆交易所排名 币圈十大杠杆交易所APP最新推荐 币圈杠杆交易所排名 币圈十大杠杆交易所APP最新推荐 Apr 21, 2025 pm 11:24 PM

2025年在杠杆交易、安全性和用户体验方面表现突出的平台有:1. OKX,适合高频交易者,提供最高100倍杠杆;2. Binance,适用于全球多币种交易者,提供125倍高杠杆;3. Gate.io,适合衍生品专业玩家,提供100倍杠杆;4. Bitget,适用于新手及社交化交易者,提供最高100倍杠杆;5. Kraken,适合稳健型投资者,提供5倍杠杆;6. Bybit,适用于山寨币探索者,提供20倍杠杆;7. KuCoin,适合低成本交易者,提供10倍杠杆;8. Bitfinex,适合资深玩

虚拟币价格上涨或者下降是为什么 虚拟币价格上涨或者下降的原因 虚拟币价格上涨或者下降是为什么 虚拟币价格上涨或者下降的原因 Apr 21, 2025 am 08:57 AM

虚拟币价格上涨因素包括:1.市场需求增加,2.供应量减少,3.利好消息刺激,4.市场情绪乐观,5.宏观经济环境;下降因素包括:1.市场需求减少,2.供应量增加,3.利空消息打击,4.市场情绪悲观,5.宏观经济环境。

对于加密货币行业来说,'黑色星期一抛售”是艰难的一天 对于加密货币行业来说,'黑色星期一抛售”是艰难的一天 Apr 21, 2025 pm 02:48 PM

加密货币市场暴跌引发投资者恐慌,Dogecoin(Doge)成为重灾区之一。其价格大幅下挫,去中心化金融(DeFi)总价值锁定(TVL)也出现显着下降。 “黑色星期一”的抛售潮席卷加密货币市场,Dogecoin首当其冲。其DeFiTVL跌至2023年水平,币价在过去一个月内下跌23.78%。 Dogecoin的DeFiTVL降至272万美元的低点,主要原因是SOSO价值指数下跌26.37%。其他主要DeFi平台,如无聊的Dao和Thorchain,TVL也分别下降了24.04%和20.

See all articles