LeCun对自动驾驶独角兽的造假行为深感失望
你以为这是一个普通的自动驾驶视频吗?
图片
这个内容需要重新写成中文,而不改变原来的意思
没有一帧是“真的”。
图片
不同路况、各种天气,20多种情况都能模拟,效果以假乱真。
图片
世界模型再次立大功了!这不LeCun看了都激情转发。
图片
根据上述效果,这是由GAIA-1的最新版本带来的
这个项目的规模达到了90亿参数,通过4700小时的驾驶视频训练,成功实现了输入视频、文本或操作生成自动驾驶视频的效果
带来的最直接好处就是——能更好预测未来事件,20多种场景都能模拟,从而进一步提升了自动驾驶的安全性、还降低了成本。
图片
我们的主创团队直言不讳地表示,这将彻底改变自动驾驶的游戏规则!
所以GAIA-1是如何实现的?
规模越大效果越好
GAIA-1是一个具有多种模式的生成式世界模型
通过利用视频、文本和动作作为输入,该系统可以生成逼真的驾驶场景视频,并且可以对自主车辆的行为和场景特征进行精细控制
可以通过仅使用文本提示来生成视频
图片
其模型原理类似于大型语言模型,即预测下一个标记
模型可以利用向量量化表示将视频帧离散,然后预测未来场景,就转换成了预测序列中的下一个token。然后再利用扩散模型从世界模型的语言空间里生成高质量视频。
具体步骤如下:
图片
第一步简单理解,就是对各种输入进行重新编码和排列组合。
通过使用专门的编码器对各种输入进行编码,并将不同的输入投射到共享表示中。文本和视频编码器将输入分离、嵌入,而操作表示则被单独投射到共享表示中
这些编码的表示具有时间一致性。
在进行排列之后,关键部分世界模型登场。
作为一个自回归Transformer,它能预测序列中的下一组图像token。而且它不仅考虑了之前的图像token,还要兼顾文本和操作的上下文信息。
模型生成的内容不仅保持了图像的一致性,还能与预测的文本和动作保持一致
团队介绍,GAIA-1中的世界模型规模为65亿参数,在64块A100上训练15天而成。
最后再利用视频解码器、视频扩散模型,将这些token转换回视频。
这一步的重要性在于确保视频的语义质量、图像准确性和时间一致性
GAIA-1的视频解码器规模达26亿参数规模,利用32台A100训练15天而来。
值得一提的是,GAIA-1不仅与大型语言模型的原理相似,而且还展现出随着模型规模扩大,生成质量提升的特点
图片
团队对之前发布的六月早期版本和最新效果进行了比较
后者规模为前者的480倍。
可以直观看到视频在细节、分辨率等方面都有明显提升。
图片
从实际应用的角度来看,GAIA-1的出现也带来了一些影响,其主创团队表示,这将改变自动驾驶的规则
图片
原因可以从三个方面来解释:
- 安全
- 综合训练数据
- 长尾场景
首先安全方面,世界模型能够通过模拟未来,让AI有能力意识到自己的决定,这对自动驾驶的安全性来说很关键。
其次,对于自动驾驶来说,训练数据也是非常重要的。生成的数据具有更高的安全性和成本效益,并且可以无限扩展
生成式AI可以解决自动驾驶面临的长尾场景挑战之一。它可以处理更多边缘场景,例如在大雾天气中遇到横穿马路的行人。这将进一步提高自动驾驶的能力
Wayve是谁?
GAIA-1是由英国自动驾驶初创公司Wayve开发的
Wayve成立于2017年,投资方有微软等,估值已经达到了独角兽。
创始人是亚历克斯·肯德尔和艾玛尔·沙,他们都是剑桥大学的机器学习博士
图片
技术路线上,和特斯拉一样,Wayve主张利用摄像头的纯视觉方案,很早就抛弃高精地图,坚定的走“即时感知”路线。
前不久,该团队发布的另一个大模型LINGO-1也引起了广泛关注
这个自动驾驶模型能够在行车过程中实时生成解说,从而进一步提高了模型的可解释性
今年3月,比尔·盖茨还曾试乘过过Wayve的自动驾驶汽车。
图片
论文地址:https://www.php.cn/link/1f8c4b6a0115a4617e285b4494126fbf
参考链接:
[1]https://www.php.cn/link/85dca1d270f7f9aef00c9d372f114482[2]https://www.php.cn/link/a4c22565dfafb162a17a7c357ca9e0be
以上是LeCun对自动驾驶独角兽的造假行为深感失望的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

昨天面试被问到了是否做过长尾相关的问题,所以就想着简单总结一下。自动驾驶长尾问题是指自动驾驶汽车中的边缘情况,即发生概率较低的可能场景。感知的长尾问题是当前限制单车智能自动驾驶车辆运行设计域的主要原因之一。自动驾驶的底层架构和大部分技术问题已经被解决,剩下的5%的长尾问题,逐渐成了制约自动驾驶发展的关键。这些问题包括各种零碎的场景、极端的情况和无法预测的人类行为。自动驾驶中的边缘场景"长尾"是指自动驾驶汽车(AV)中的边缘情况,边缘情况是发生概率较低的可能场景。这些罕见的事件

写在前面今天我们探讨下深度学习技术如何改善在复杂环境中基于视觉的SLAM(同时定位与地图构建)性能。通过将深度特征提取和深度匹配方法相结合,这里介绍了一种多功能的混合视觉SLAM系统,旨在提高在诸如低光条件、动态光照、弱纹理区域和严重抖动等挑战性场景中的适应性。我们的系统支持多种模式,包括拓展单目、立体、单目-惯性以及立体-惯性配置。除此之外,还分析了如何将视觉SLAM与深度学习方法相结合,以启发其他研究。通过在公共数据集和自采样数据上的广泛实验,展示了SL-SLAM在定位精度和跟踪鲁棒性方面优

最近一个月由于众所周知的一些原因,非常密集地和行业内的各种老师同学进行了交流。交流中必不可免的一个话题自然是端到端与火爆的特斯拉FSDV12。想借此机会,整理一下在当下这个时刻的一些想法和观点,供大家参考和讨论。如何定义端到端的自动驾驶系统,应该期望端到端解决什么问题?按照最传统的定义,端到端的系统指的是一套系统,输入传感器的原始信息,直接输出任务关心的变量。例如,在图像识别中,CNN相对于传统的特征提取器+分类器的方法就可以称之为端到端。在自动驾驶任务中,输入各种传感器的数据(相机/LiDAR

目标检测在自动驾驶系统当中是一个比较成熟的问题,其中行人检测是最早得以部署算法之一。在多数论文当中已经进行了非常全面的研究。然而,利用鱼眼相机进行环视的距离感知相对来说研究较少。由于径向畸变大,标准的边界框表示在鱼眼相机当中很难实施。为了缓解上述描述,我们探索了扩展边界框、椭圆、通用多边形设计为极坐标/角度表示,并定义一个实例分割mIOU度量来分析这些表示。所提出的具有多边形形状的模型fisheyeDetNet优于其他模型,并同时在用于自动驾驶的Valeo鱼眼相机数据集上实现了49.5%的mAP

写在前面&出发点端到端的范式使用统一的框架在自动驾驶系统中实现多任务。尽管这种范式具有简单性和清晰性,但端到端的自动驾驶方法在子任务上的性能仍然远远落后于单任务方法。同时,先前端到端方法中广泛使用的密集鸟瞰图(BEV)特征使得扩展到更多模态或任务变得困难。这里提出了一种稀疏查找为中心的端到端自动驾驶范式(SparseAD),其中稀疏查找完全代表整个驾驶场景,包括空间、时间和任务,无需任何密集的BEV表示。具体来说,设计了一个统一的稀疏架构,用于包括检测、跟踪和在线地图绘制在内的任务感知。此外,重

4月8日消息,特斯拉首席执行官埃隆·马斯克近日透露,特斯拉正致力于全力开发自动驾驶汽车技术,备受期待的无人自动驾驶出租车Robotaxi将于8月8日正式亮相。数据小编了解到,马斯克在X上的这一表态迅速引发了市场的广泛关注,特斯拉股价在盘后交易中应声上涨,达到171.19美元,涨幅超过3%。此前,路透社曾报道称特斯拉拉车的计划,将专注于生产Robotaxi。然而,马斯克对此进行了反驳,指责路透社已经取消了开发低成本汽车的计划,并再次发布了不实报道,同时明确表示低成本汽车Model2和Robotax

本站7月24日消息,特斯拉首席执行官埃隆・马斯克(ElonMusk)在今天举办的财报电话会议中,表示该公司即将完成迄今为止最大的人工智能训练集群,该集群将配备2万片英伟达公司H100GPU。马斯克还在公司财报电话会议上告诉投资者,由于来自英伟达公司的GPU价格昂贵,特斯拉公司将努力开发其Dojo超级计算机。本站翻译马斯克部分演讲内容如下:通过Dojo和英伟达竞争的道路很艰难,但我认为我们别无选择,我们现在过度依赖英伟达了。站在英伟达公司的角度,它们必然会将GPU的价格提高到市场所能承受的水平,但

写在前面当前自动驾驶系统摆脱对高精度地图依赖的算法之一,是利用远距离范围下的感知表现依然较差的现实依然较差。为此,我们提出了P-MapNet,其中的“P”专注于融合地图先验来提高模型性能。具体来说,我们利用了SDMap和HDMap中的先验信息:一方面,我们从OpenStreetMap中提取了弱对准的SDMap数据,并将其编码为独立的条款来支持输入。严格修改输入与实际HD+Map存在弱对齐的问题,我们基于Cross-attention机制的结构能够自适应地关注SDMap骨架,并带来显着的性能提升;
