世界模型大放异彩!这20多种自动驾驶场景数据的逼真程度令人难以置信......
你认为这是一个普通无趣的自动驾驶视频吗?
这段内容不需要改变原意,需要将其改写为中文
没有一帧是“真的”。
不同路况、各种天气,20多种情况都能模拟,效果以假乱真。
世界模型再次展现出其强大的作用!这一次,LeCun看到后都激动地转发了
如上效果,由GAIA-1的最新版本带来。
它规模达90亿参数,用4700小时驾驶视频训练,实现了输入视频、文本或操作生成自动驾驶视频的效果。
带来的最直接好处就是,能够更好地预测未来事件。它可以模拟超过20种场景,从而进一步提高自动驾驶的安全性,并降低成本
主创团队表示,这将改变自动驾驶的游戏规则!
GAIA-1是如何实现的?其实之前我们已经在自动驾驶的Daily中详细介绍了Wayve团队开发的GAIA-1:一种用于自动驾驶的生成式世界模型。如果你对此感兴趣,可以去我们的公众号阅读相关内容!
规模越大效果越好
GAIA-1是一个多模态生成式世界模型,它能够通过整合视觉、听觉和语言等多种感知方式来理解和生成世界的表达。这个模型通过深度学习算法,能够从大量的数据中学习并推理出世界的结构和规律。GAIA-1的目标是模拟人类的感知和认知能力,以便更好地理解和交互世界。它在许多领域都有广泛的应用,包括自动驾驶、机器人技术和虚拟现实等。通过不断地训练和优化,GAIA-1将不断进化和提升,成为一个更加智能和全面的世界模型
它使用视频、文本和动作作为输入,并生成逼真的驾驶场景视频,同时可以对自动驾驶车辆的行为和场景特征进行精细控制
而且可以仅通过文本提示来生成视频。
其模型原理类似于大型语言模型的原理,即预测下一个令牌
模型可以利用向量量化表示将视频帧离散,然后预测未来场景,就转换成了预测序列中的下一个token。然后再利用扩散模型从世界模型的语言空间里生成高质量视频。
具体步骤如下:
第一步简单理解,就是对各种输入进行重新编码和排列组合。
通过使用专门的编码器对各种输入进行编码,可以将不同的输入投射到共享表示中。文本和视频编码器将输入分离、嵌入,而操作表示则被单独投射到共享表示中
这些编码的表示具有时间的一致性
在进行排列之后,关键部分世界模型登场。
作为一个自回归Transformer,它有能力预测序列中的下一组图像令牌。它不仅考虑了之前的图像令牌,还要同时考虑文本和操作的上下文信息
模型生成的内容不仅保持了图像的一致性,还能与预测的文本和动作保持一致
团队介绍,GAIA-1中的世界模型规模为65亿参数,在64块A100上训练15天而成。
通过使用视频解码器和视频扩散模型,最后将这些令牌转换回视频
这一步关乎视频的语义质量、图像准确性和时间一致性。
GAIA-1的视频解码器规模达26亿参数规模,利用32台A100训练15天而来。
值得一提的是,GAIA-1不仅和大语言模型原理相似,同时也呈现出了随着模型规模扩大、生成质量提升的特点。
团队对先前的6月份发布的早期版本和最新效果进行了对比
后者规模为前者的480倍。
可以直观看到视频在细节、分辨率等方面都有明显提升。
而从实际应用方面出发,GAIA-1也带来了影响,其主创团队表示,这会改变自动驾驶的规则。
原因来自三方面:
- 安全
- 综合训练数据
- 长尾场景
首先安全方面,世界模型能够通过模拟未来,让AI有能力意识到自己的决定,这对自动驾驶的安全性来说很关键。
其次,训练数据对于自动驾驶来说也非常关键。生成的数据更加安全、便宜,而且还能无限扩展。
生成式AI能够解决自动驾驶面临的一个主要挑战——长尾场景。它可以处理更多边缘情况,例如在大雾天气中遇到横穿马路的行人。这将进一步提高自动驾驶的性能
Wayve是谁?
GAIA-1来自英国自动驾驶初创公司Wayve。
Wayve成立于2017年,投资方有微软等,估值已经达到了独角兽。
创始人为现任首席执行官亚历克斯·肯德尔和艾玛尔·沙(公司官网领导层页已无其信息),两人均毕业于剑桥大学,拥有机器学习博士学位
技术路线上,和特斯拉一样,Wayve主张利用摄像头的纯视觉方案,很早就抛弃高精地图,坚定的走“即时感知”路线。
前不久,该团队发布的另一个大模型LINGO-1也引发轰动。
这个自动驾驶模型在行车过程中能够实时生成解说,从而进一步提高了模型的可解释性
今年3月,比尔·盖茨还曾试乘过过Wayve的自动驾驶汽车。
论文地址:https://arxiv.org/abs/2309.17080
需要被改写的内容是:原文链接:https://mp.weixin.qq.com/s/bwTDovx9-UArk5lx5pZPag
以上是世界模型大放异彩!这20多种自动驾驶场景数据的逼真程度令人难以置信......的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

昨天面试被问到了是否做过长尾相关的问题,所以就想着简单总结一下。自动驾驶长尾问题是指自动驾驶汽车中的边缘情况,即发生概率较低的可能场景。感知的长尾问题是当前限制单车智能自动驾驶车辆运行设计域的主要原因之一。自动驾驶的底层架构和大部分技术问题已经被解决,剩下的5%的长尾问题,逐渐成了制约自动驾驶发展的关键。这些问题包括各种零碎的场景、极端的情况和无法预测的人类行为。自动驾驶中的边缘场景"长尾"是指自动驾驶汽车(AV)中的边缘情况,边缘情况是发生概率较低的可能场景。这些罕见的事件

想象一下,一个人工智能模型,不仅拥有超越传统计算的能力,还能以更低的成本实现更高效的性能。这不是科幻,DeepSeek-V2[1],全球最强开源MoE模型来了。DeepSeek-V2是一个强大的专家混合(MoE)语言模型,具有训练经济、推理高效的特点。它由236B个参数组成,其中21B个参数用于激活每个标记。与DeepSeek67B相比,DeepSeek-V2性能更强,同时节省了42.5%的训练成本,减少了93.3%的KV缓存,最大生成吞吐量提高到5.76倍。DeepSeek是一家探索通用人工智

AI,的确正在改变数学。最近,一直十分关注这个议题的陶哲轩,转发了最近一期的《美国数学学会通报》(BulletinoftheAmericanMathematicalSociety)。围绕「机器会改变数学吗?」这个话题,众多数学家发表了自己的观点,全程火花四射,内容硬核,精彩纷呈。作者阵容强大,包括菲尔兹奖得主AkshayVenkatesh、华裔数学家郑乐隽、纽大计算机科学家ErnestDavis等多位业界知名学者。AI的世界已经发生了天翻地覆的变化,要知道,其中很多文章是在一年前提交的,而在这一

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow,7项指标排名第一。而且测试并不是在JAX性能表现最好的TPU上完成的。虽然现在在开发者中,Pytorch依然比Tensorflow更受欢迎。但未来,也许有更多的大模型会基于JAX平台进行训练和运行。模型最近,Keras团队为三个后端(TensorFlow、JAX、PyTorch)与原生PyTorch实现以及搭配TensorFlow的Keras2进行了基准测试。首先,他们为生成式和非生成式人工智能任务选择了一组主流

波士顿动力Atlas,正式进入电动机器人时代!昨天,液压Atlas刚刚「含泪」退出历史舞台,今天波士顿动力就宣布:电动Atlas上岗。看来,在商用人形机器人领域,波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后,短短十几小时内,就已经有一百多万观看。旧人离去,新角色登场,这是历史的必然。毫无疑问,今年是人形机器人的爆发年。网友锐评:机器人的进步,让今年看起来像人类的开幕式动作、自由度远超人类,但这真不是恐怖片?视频一开始,Atlas平静地躺在地上,看起来应该是仰面朝天。接下来,让人惊掉下巴

本月初,来自MIT等机构的研究者提出了一种非常有潜力的MLP替代方法——KAN。KAN在准确性和可解释性方面表现优于MLP。而且它能以非常少的参数量胜过以更大参数量运行的MLP。比如,作者表示,他们用KAN以更小的网络和更高的自动化程度重现了DeepMind的结果。具体来说,DeepMind的MLP有大约300,000个参数,而KAN只有约200个参数。KAN与MLP一样具有强大的数学基础,MLP基于通用逼近定理,而KAN基于Kolmogorov-Arnold表示定理。如下图所示,KAN在边上具

最近一个月由于众所周知的一些原因,非常密集地和行业内的各种老师同学进行了交流。交流中必不可免的一个话题自然是端到端与火爆的特斯拉FSDV12。想借此机会,整理一下在当下这个时刻的一些想法和观点,供大家参考和讨论。如何定义端到端的自动驾驶系统,应该期望端到端解决什么问题?按照最传统的定义,端到端的系统指的是一套系统,输入传感器的原始信息,直接输出任务关心的变量。例如,在图像识别中,CNN相对于传统的特征提取器+分类器的方法就可以称之为端到端。在自动驾驶任务中,输入各种传感器的数据(相机/LiDAR

写在前面&出发点端到端的范式使用统一的框架在自动驾驶系统中实现多任务。尽管这种范式具有简单性和清晰性,但端到端的自动驾驶方法在子任务上的性能仍然远远落后于单任务方法。同时,先前端到端方法中广泛使用的密集鸟瞰图(BEV)特征使得扩展到更多模态或任务变得困难。这里提出了一种稀疏查找为中心的端到端自动驾驶范式(SparseAD),其中稀疏查找完全代表整个驾驶场景,包括空间、时间和任务,无需任何密集的BEV表示。具体来说,设计了一个统一的稀疏架构,用于包括检测、跟踪和在线地图绘制在内的任务感知。此外,重
