特斯拉前AI总监Karpathy解密离职和纯视觉方案
特斯拉前人工智能总监,新晋AI网红老师Andrej Karpathy近日参加了MIT人工智能专家Lex Fridman的播客节目。对于人工智能爱好者来说,这次访谈可谓是「双厨狂喜」。
将近三个半小时的访谈中,两人谈论了人工智能、宇宙、人类社会等宏大命题,还具体讨论了特斯拉的多项技术,如自动驾驶、Optimus人形机器人、和特斯拉视觉方案。此外,两人还聊到了观众最关心的Andrej的离职,以及特斯拉取消超声波雷达的原因。
不用雷达:贵还难使!
特斯拉去年从传感器套件中删除了毫米波雷达,刚刚又宣布要移除所有超声波雷达,只保留摄像头,采用纯视觉方案。Lex问道:「这使车辆的道路探测变得更难还是更容易?」
Karpathy表示:「人们大都会认为这些传感器是汽车的不可或缺的资产,但如果充分考虑产品的整体性,这些传感器实际上是潜在的负担。」
「这些传感器不是免费的,不可能凭空出现在车上。不仅需要有一个完整的供应链,还需要有人负责采购,」而这些都是要花真金白银的。
同时,传感器可能会故障,需要更换。「作为汽车制造的一部分,传感器的生产还可能拖累整体进度。所以,你不仅需要采购和维护,还必须有编写固件的团队。」
不仅如此,使用雷达传感器还会导致探测系统的冗杂。Karpathy说:「把它们纳入到汽车系统中后,会导致系统整体的过度膨胀。」
安装这么多的传感器对数据引擎也会造成压力。随时间不断发生发展,传感器的功能越来越细化。「现在有太多的雷达,每个的功能都不尽相同。这造成了探测系统的过度膨胀。此外,过多的雷达还会互相干扰,影响效果。」
他高度赞扬前老板马斯克化繁为简的能力,「我认为埃隆很擅长简化,他曾说:『最好的部件是没有部件。』他总会尝试抛弃那些不重要的东西,一直在做减法,因为他了解组织的熵增现象。」
成本高,问题多,需要人员不断修复。还会带来探测系统的冗杂。在这种情况下,安装雷达的成本很高,并且没有很大的发展潜力。
「作为一个计算机视觉工程师,想改善车辆的探测网络,就会考虑增加传感器是否有用,有多大用处。我们进行对比试验,真正确定雷达是否能给车主提供非常有用的路况信息。但结果表明区别并不大,这说明雷达并没有用。」
Karpathy不仅解释特斯拉抛弃这项技术的原因,还断言其他汽车公司也会做出相同的选择。「和激光雷达相似,我认为超声波雷达不能提供很多额外信息。我认为其他还在用激光雷达的公司也会抛弃这项技术的。」
纯视觉方案:更胜一筹
Karpathy对于纯视觉方案抱有很大希望。「如果选择纯视觉方案,我们可以集中所有资源,建立强大的数据引擎。」
「这种传感器的带宽非常高,我们在这方面取得了实质进展。只要大力投资该技术,就可以获得非凡的成就。」
Karpathy表示,纯视觉方案既是必要的,也是充分的。某种意义上讲,世界是为了人类的视觉消费而被设计出来的,人们有视觉上的需求。
同时,该方案能提供所有驾驶者需要的全部驾驶信息。「因此,我们必须集中资源发展这项技术,并不断问自己:『我真的要引入其他的传感器吗?』我认为这种情况下的答案是否定的。」
虽然纯视觉方案获得Karpathy的大力支持,但当Lex问及如何看待激光雷达和纯视觉方案,以及点云和体素之间的区别时,Karpathy坦言:两者不是自动化驾驶的重点。
他说:「我一直看不懂这个争论。因为这不是问题的核心。我觉得大家在讨论自动化时应该关注是否有路测车队作为支撑。这个才是人工智能系统能否更好服务的关键。」
因此,在考虑传感器的探测能力时必须要全面。包括能否提供路测车队来收集大量数据,能否整合传感器与数据,并将传感器整合到数据引擎中,实现数据不同部分的快速搜索,之后不断改进所使用的模型。
厘米级地图:没必要!
当被问及如何看待其他公司制作运营地区的自动驾驶汽车高清地图时,Karpathy表示:「太疯狂了!」
「我们一直在谈论自动驾驶如何改变世界,谈论全球范围内该技术如何运用到交通领域。如果你需要持续提供一个厘米级精准的世界或城市地图,并保持更新频率,这个成本太大了。」
当Lex问这种做法是否会扩展到美国的全部地区时,Karpathy用特斯拉的例子现身说法:「人们不需要如此高精度的地图。一个低精度的地图足以展现路况和前方路段等关键信息。驾驶者可以像看谷歌地图一样,通过这些关键信息理解自己所处环境。」
「特斯拉在驾驶系统中使用和谷歌地图类似分辨率的信息。但不会预先绘制厘米级精度的地图。这种做法画蛇添足,费力不讨好,还稀释了团队能力,让技术人员无法专注于真正必要的东西,那就是计算机视觉问题。」
离职后还会回来?这就是爱
在谈及为何离开特斯拉时,Karpathy表示这是个艰难的决定。虽然特斯拉还未完全实现自动化驾驶,但研发团队已经可以自行发展。这次离职也给他一个机会,去重新审视自己对于人工智能、开源和教育的热爱。
此前,他供职特斯拉已有5年,直接向大老板马斯克汇报,在特斯拉的一众高管中,绝对算得上是老资格了。据报道,此前这位李飞飞的高徒已经休假了几个月时间,之前还曾说过,近期结束休假后就将重返特斯拉,结果直接宣布离职了。
Karpathy表示:「很高兴在过去5年里协助特斯拉一起实现了众多目标,离开的决定其实是个艰难的选择。这5年里,自动驾驶完成了『毕业』,从蹒跚寻路开始,开上了城市的街头。我无比期待未来更强大的自动驾驶团队能够继续辉煌下去。」
关于离职之后的未来打算,他表示:「未来还没什么具体的计划,可能回归自己拥有长期热情的领域,比如AI技术工作、开源和教育等。」
当然,他在访谈中也提到重回特斯拉的可能性:「或许在某个时候我会回来,在特斯拉从事Optimus或AGI(通用人工智能)的工作。特斯拉将是一个了不起的公司,可以创造非凡。在这个大规模的机器人公司,有才华的设计师们正创造前所未有的新事物。」
从特斯拉高管到网红老师,Karpathy可以为了人工智能离开特斯拉,也可以为了人形机器人和AGI有朝一日重返岗位。他追求的不是物质与地位,而是技术的不断进步。这和其导师李飞飞毕业后拒绝转行,坚守计算机图像识别研究的行为异曲同工。或许,这就是「有其师必有其徒」吧!
以上是特斯拉前AI总监Karpathy解密离职和纯视觉方案的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

智能应用控制是Windows11中非常有用的工具,可帮助保护你的电脑免受可能损害数据的未经授权的应用(如勒索软件或间谍软件)的侵害。本文将解释什么是智能应用控制、它是如何工作的,以及如何在Windows11中打开或关闭它。什么是Windows11中的智能应用控制?智能应用控制(SAC)是Windows1122H2更新中引入的一项新安全功能。它与MicrosoftDefender或第三方防病毒软件一起运行,以阻止可能不必要的应用,这些应用可能会减慢设备速度、显示意外广告或执行其他意外操作。智能应用

如此强大的AI模仿能力,真的防不住,完全防不住。现在AI的发展已经达到了这种程度吗?你前脚让自己的五官乱飞,后脚,一模一样的表情就被复现出来,瞪眼、挑眉、嘟嘴,不管多么夸张的表情,都模仿的非常到位。加大难度,让眉毛挑的再高些,眼睛睁的再大些,甚至连嘴型都是歪的,虚拟人物头像也能完美复现表情。当你在左侧调整参数时,右侧的虚拟头像也会相应地改变动作给嘴巴、眼睛一个特写,模仿的不能说完全相同,只能说表情一模一样(最右边)。这项研究来自慕尼黑工业大学等机构,他们提出了GaussianAvatars,这种

一个可以自动分析PDF、网页、海报、Excel图表内容的大模型,对于打工人来说简直不要太方便。上海AILab,香港中文大学等研究机构提出的InternLM-XComposer2-4KHD(简写为IXC2-4KHD)模型让这成为了现实。相比于其他多模态大模型不超过1500x1500的分辨率限制,该工作将多模态大模型的最大输入图像提升到超过4K(3840x1600)分辨率,并支持任意长宽比和336像素~4K动态分辨率变化。发布三天,该模型就登顶HuggingFace视觉问答模型热度榜单第一。轻松拿捏

本文经自动驾驶之心公众号授权转载,转载请联系出处。原标题:MotionLM:Multi-AgentMotionForecastingasLanguageModeling论文链接:https://arxiv.org/pdf/2309.16534.pdf作者单位:Waymo会议:ICCV2023论文思路:对于自动驾驶车辆安全规划来说,可靠地预测道路代理未来行为是至关重要的。本研究将连续轨迹表示为离散运动令牌序列,并将多智能体运动预测视为语言建模任务。我们提出的模型MotionLM具有以下几个优点:首

身高1.65米,体重55公斤,全身44个自由度,能够快速行走、敏捷避障、稳健上下坡、抗冲击干扰的人形机器人,现在可以带回家了!傅利叶智能的通用人形机器人GR-1已开启预售机器人大讲堂傅利叶智能FourierGR-1通用人形机器人现已开放预售。GR-1拥有高度仿生的躯干构型和拟人化的运动控制,全身44个自由度,具备行走、避障、越障、上下坡、抗干扰、适应不同路面等运动能力,是通用人工智能的理想载体。官网预售页面:www.fftai.cn/order#FourierGR-1#傅利叶智能需要进行改写的内

《ComputerWorld》杂志曾经写过一篇文章,说“编程到1960年就会消失”,因为IBM开发了一种新语言FORTRAN,这种新语言可以让工程师写出他们所需的数学公式,然后提交给计算机运行,所以编程就会终结。图片又过了几年,我们听到了一种新说法:任何业务人员都可以使用业务术语来描述自己的问题,告诉计算机要做什么,使用这种叫做COBOL的编程语言,公司不再需要程序员了。后来,据说IBM开发出了一门名为RPG的新编程语言,可以让员工填写表格并生成报告,因此大部分企业的编程需求都可以通过它来完成图

轨迹预测近两年风头正猛,但大都聚焦于车辆轨迹预测方向,自动驾驶之心今天就为大家分享顶会NeurIPS上关于行人轨迹预测的算法—SHENet,在受限场景中人类的移动模式通常在一定程度上符合有限的规律。基于这个假设,SHENet通过学习隐含的场景规律来预测一个人的未来轨迹。文章已经授权自动驾驶之心原创!笔者的个人理解由于人类运动的随机性和主观性,当前预测一个人的未来轨迹仍然是一个具有挑战性的问题。然而,由于场景限制(例如平面图、道路和障碍物)以及人与人或人与物体的交互性,在受限场景中人类的移动模式通

近日,华为宣布将于9月推出一款搭载玄玑感知系统的全新智能穿戴新品,预计为华为的最新智能手表。该新品将集成先进的情绪健康监测功能,玄玑感知系统以其六大特性——准确性、全面性、快速性、灵活性、开放性和延展性——为用户提供全方位的健康评估。系统采用超感知模组,优化了多通道光路架构技术,大幅提升了心率、血氧和呼吸率等基础指标的监测精度。此外,玄玑感知系统还拓展了基于心率数据的情绪状态研究,不仅限于生理指标,还能评估用户的情绪状态和压力水平,支持超过60项运动健康指标监测,涵盖心血管、呼吸、神经、内分泌、
