李飞飞划重点的「具身智能」,走到哪一步了?
2009 年,当时在普林斯顿大学工作的计算机科学家李飞飞主导构建了一个改变人工智能历史的数据集——ImageNet。它包含了数百万张有标签的图像,可以用来训练复杂的机器学习模型,以识别图像中的物体。
2015 年,机器的识别能力超过了人类。李飞飞也在不久之后转向了新的目标,去寻找她所说的另一颗「北极星」(此处的「北极星」指的是研究人员所专注于解决的关键科学问题,这个问题可以激发他们的研究热情并取得突破性的进展)。
她通过回溯 5.3 亿年前的寒武纪生命大爆发找到了灵感,当时,许多陆生动物物种首次出现。一个有影响力的理论认为,新物种的爆发部分是由眼睛的出现所驱动的,这些眼睛让生物第一次看到周围的世界。李飞飞认为,动物的视觉不会孤零零地产生,而是「深深地嵌在一个整体中,这个整体需要在快速变化的环境中移动、导航、生存、操纵和改变,」她说道,「所以我就很自然地转向了一个更加活跃的 AI 领域。」
如今,李飞飞的工作重点集中在 AI 智能体上,这种智能体不仅能接收来自数据集的静态图像,还能在三维虚拟世界的模拟环境中四处移动,并与周围环境交互。
这是一个被称为「具身 AI」的新领域的广泛目标。它与机器人技术有所重叠,因为机器人可以看作是现实世界中具身 AI 智能体和强化学习的物理等价物。李飞飞等人认为,具身 AI 可能会给我们带来一次重大的转变,从识别图像等机器学习的简单能力,转变到学习如何通过多个步骤执行复杂的类人任务,如制作煎蛋卷。
今天,具身 AI 的工作包括任何可以探测和改变自身环境的智能体。在机器人技术中,AI 智能体总是生活在机器人身体中,而真实模拟中的智能体可能有一个虚拟的身体,或者可能通过一个移动的相机机位来感知世界,而且还能与周围环境交互。「具身的含义不是身体本身,而是与环境交互以及在环境中做事的整体需求和功能,」李飞飞解释说。
这种交互性为智能体提供了一种全新的——在许多情况下是更好的——了解世界的方式。这就相当于,之前你只是观察两个物体之间可能的关系,而现在,你可以亲自实验并让这种关系发生。有了这种新的理解,想法就会付诸实践,更大的智慧也会随之而来。随着一套新的虚拟世界的建立和运行,具身 AI 智能体已经开始发挥这种潜力,在他们的新环境中取得了重大进展。
「现在,我们没有任何证据证明存在不通过与世界互动来学习的智能,」德国奥斯讷布吕克大学的具身 AI 研究者 Viviane Clay 说。
走向完美模拟
虽然研究人员早就想为 AI 智能体创造真实的虚拟世界来探索,但真正创建的时间才只有五年左右。这种能力来自于电影和视频游戏行业对图像的改进。2017 年,AI 智能体可以像在家里一样逼真地描绘室内空间——虽然是虚拟的,但却是字面上的「家」。艾伦人工智能研究所的计算机科学家构建了一个名为 AI2-Thor 的模拟器,让智能体在自然的厨房、浴室、客厅和卧室中随意走动。智能体可以学习三维视图,这些视图会随着他们的移动而改变,当他们决定近距离观察时,模拟器会显示新的角度。
这种新世界也给了智能体一个机会去思考一个新维度「时间」中的变化。西蒙弗雷泽大学的计算机图形学研究员 Manolis savva 说,「这是一个很大的变化。在具身 AI 设定中,你有这些时间上的连贯信息流,你可以控制它。」
这些模拟的世界现在已经足够好,可以训练智能体完成全新的任务。它们不仅可以识别一个物体,还可以与它互动,捡起它并在它周围导航。这些看似很小的步骤对任何智能体来说都是理解其环境的必要步骤。2020 年,虚拟智能体拥有了视觉以外的能力,可以听到虚拟事物发出的声音,这为其了解物体及其在世界上的运行方式提供了一种新的视角。
可以在虚拟世界(ManipulaTHOR environment)中运行的具身 AI 智能体以不同的方式学习,可能更适合更复杂的、类人的任务。
不过,模拟器也有自己的局限。「即使最好的模拟器也远不如现实世界真实,」斯坦福大学计算机科学家 Daniel Yamins 说。Yamins 与麻省理工学院和 IBM 的同事共同开发了 ThreeDWorld,该项目重点关注在虚拟世界中模拟现实生活中的物理现象,如液体的行为以及一些物体如何在一个区域是刚性的,而在另一个区域又是柔性的。
这是一项非常具有挑战性的任务,需要让 AI 以新的方式去学习。
与神经网络进行比较
到目前为止,衡量具身 AI 进展的一种简单方法是:将具身智能体的表现与在更简单的静态图像任务上训练的算法进行比较。研究人员指出,这些比较并不完美,但早期结果确实表明,具身 AI 的学习方式不同于它们的前辈,有时候比它们的前辈学得还好。
在最近的一篇论文(《Interactron: Embodied Adaptive Object Detection》)中,研究人员发现,一个具身 AI 智能体在检测特定物体方面更准确,比传统方法提高了近 12%。该研究的合著者、艾伦人工智能研究所计算机科学家 Roozbeh Mottaghi 表示,「目标检测领域花了三年多的时间才实现这种水平的改进。而我们仅通过与世界的交互就取得了很大的进步。」
其他论文已经表明,当你把目标检测算法做成具身 AI 的形式,并让它们探索一次虚拟空间或者随处走动收集对象的多视图信息时,该算法会取得进步。
研究人员还发现,具身算法和传统算法的学习方式完全不同。要想证明这一点,可以想想神经网络,它是每个具身算法和许多非具身算法学习能力背后的基本成分。神经网络由许多层的人工神经元节点连接而成,它松散地模仿人类大脑中的网络。在两篇独立的论文中,研究人员发现,在具身智能体的神经网络中,对视觉信息作出反应的神经元较少,这意味着每个单独的神经元在作出反应时更有选择性。非具身网络的效率要低得多,需要更多的神经元在大部分时间保持活跃。其中一个研究小组(由即将任纽约大学教授的 Grace Lindsay 领导)甚至将具身和非具身的神经网络与活体大脑中的神经元活动(老鼠的视觉皮层)进行了比较,发现具身的神经网路最接近活体。
Lindsay 很快指出,这并不一定意味着具身化的版本更好,它们只是不同。与物体检测论文不同的是,Lindsay 等人的研究比较了相同神经网络的潜在差异,让智能体完成了完全不同的任务,因此他们可能需要工作方式不同的神经网络来完成他们的目标。
虽然将具身神经网络与非具身神经网络相比是一种衡量改进的方法,但研究人员真正想做的并不是在现有的任务上提升具身智能体的性能,他们的真正目标是学习更复杂、更像人类的任务。这是最令研究人员兴奋的地方,他们看到了令人印象深刻的进展,尤其是在导航任务方面。在这些任务中,智能体必须记住其目的地的长期目标,同时制定一个到达目的地的计划,而不会迷路或撞到物体。
在短短几年的时间里,Meta AI 的一位研究主管、佐治亚理工学院计算机科学家 Dhruv Batra 领导的团队在一种被称为「point-goal navigation」的特定导航任务上取得了很大进展。在这项任务中,智能体被放在一个全新的环境中,它必须在没有地图的情况下走到某个坐标(比如「Go to the point that is 5 meters north and 10 meters east」)。
Batra 介绍说,他们在一个名叫「AI Habitat」的 Meta 虚拟世界中训练智能体,并给了它一个 GPS 和一个指南针,结果发现它可以在标准数据集上获得 99.9% 以上的准确率。最近,他们又成功地将结果扩展到一个更困难、更现实的场景——没有指南针和 GPS。结果,智能体仅借助移动时看到的像素流来估计自身位置就实现了 94% 的准确率。
Meta AI Dhruv Batra 团队创造的「AI Habitat」虚拟世界。他们希望提高模拟的速度,直到具身 AI 可以在仅仅 20 分钟的挂钟时间内达到 20 年的模拟经验。
Mottaghi 说,「这是一个了不起的进步,但并不意味着彻底解决了导航问题。因为许多其他类型的导航任务需要使用更复杂的语言指令,比如「经过厨房去拿卧室床头柜上的眼镜」,其准确率仍然只有 30% 到 40% 左右。
但导航仍然是具身 AI 中最简单的任务之一,因为智能体在环境中移动时不需要操作任何东西。到目前为止,具身 AI 智能体还远远没有掌握任何与对象相关的任务。部分挑战在于,当智能体与新对象交互时,它可能会出现很多错误,而且错误可能会堆积起来。目前,大多数研究人员通过选择只有几个步骤的任务来解决这个问题,但大多数类人活动,如烘焙或洗碗,需要对多个物体进行长序列的动作。要实现这一目标,AI 智能体将需要更大的进步。
在这方面,李飞飞可能再次走在了前沿,她的团队开发了一个模拟数据集——BEHAVIOR,希望能像她的 ImageNet 项目为目标识别所做的那样,为具身 AI 作出贡献。
这个数据集包含 100 多项人类活动,供智能体去完成,测试可以在任何虚拟环境中完成。通过创建指标,将执行这些任务的智能体与人类执行相同任务的真实视频进行比较,李飞飞团队的新数据集将允许社区更好地评估虚拟 AI 智能体的进展。
一旦智能体成功完成了这些复杂的任务,李飞飞认为,模拟的目的就是为最终的可操作空间——真实世界——进行训练。
「在我看来,模拟是机器人研究中最重要、最令人兴奋的领域之一。」李飞飞说到。
机器人研究新前沿
机器人本质上是具身智能体。它们寄居在现实世界的某种物理身体内,代表了最极端的具身 AI 智能体形式。但许多研究人员发现,即使是这类智能体也能从虚拟世界的训练中受益。
Mottaghi 说,机器人技术中最先进的算法,如强化学习等,通常需要数百万次迭代来学习有意义的东西。因此,训练真实机器人完成艰巨任务可能需要数年时间。
机器人可以在现实世界中不确定的地形中导航。新的研究表明,虚拟环境中的训练可以帮助机器人掌握这些技能以及其他技能。
但如果先在虚拟世界中训练它们,速度就要快得多。数千个智能体可以在数千个不同的房间中同时训练。此外,虚拟训练对机器人和人来说都更安全。
2018 年,OpenAI 的研究人员证明了:智能体在虚拟世界中学到的技能可以迁移到现实世界,因此很多机器人专家开始更加重视模拟器。他们训练一只机械手去操作一个只在模拟中见过的立方体。最新的研究成果还包括让无人机学会在空中避免碰撞,将自动驾驶汽车部署在两个不同大陆的城市环境中,以及让四条腿的机器狗在瑞士阿尔卑斯山完成一小时的徒步旅行(和人类所花的时间一样)。
未来,研究人员还可能通过虚拟现实头显将人类送入虚拟空间,从而缩小模拟和现实世界之间的差距。英伟达机器人研究高级主管、华盛顿大学教授 Dieter Fox 指出,机器人研究的一个关键目标是构建在现实世界中对人类有帮助的机器人。但要做到这一点,它们必须首先接触并学习如何与人类交互。
Fox 说,利用虚拟现实技术让人类进入这些模拟环境,然后让他们做出演示、与机器人交互,这将是一种非常强大的方法。
无论身处模拟还是现实世界,具身 AI 智能体都在学习如何更像人,完成的任务更像人类的任务。这个领域在各个方面都在进步,包括新的世界、新的任务和新的学习算法。
「我看到了深度学习、机器人学习、视觉甚至语言的融合,」李飞飞说,「现在我认为,通过这个面向具身 AI 的『登月计划』或『北极星』,我们将学习智能的基础技术,这可以真正带来重大突破。」
李飞飞探讨计算机视觉「北极星」问题的文章。链接:https://www.amacad.org/publication/searching-computer-vision-north-stars
以上是李飞飞划重点的「具身智能」,走到哪一步了?的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

如此强大的AI模仿能力,真的防不住,完全防不住。现在AI的发展已经达到了这种程度吗?你前脚让自己的五官乱飞,后脚,一模一样的表情就被复现出来,瞪眼、挑眉、嘟嘴,不管多么夸张的表情,都模仿的非常到位。加大难度,让眉毛挑的再高些,眼睛睁的再大些,甚至连嘴型都是歪的,虚拟人物头像也能完美复现表情。当你在左侧调整参数时,右侧的虚拟头像也会相应地改变动作给嘴巴、眼睛一个特写,模仿的不能说完全相同,只能说表情一模一样(最右边)。这项研究来自慕尼黑工业大学等机构,他们提出了GaussianAvatars,这种

目标检测是计算机视觉领域的重要任务,用于识别图像或视频中的物体并定位其位置。这项任务通常分为单阶段和双阶段两类算法,它们在准确性和鲁棒性方面有所不同。单阶段目标检测算法单阶段目标检测算法将目标检测转化为分类问题,其优点是速度快,只需一步即可完成检测。然而,由于过于简化,精度通常不如双阶段目标检测算法。常见的单阶段目标检测算法包括YOLO、SSD和FasterR-CNN。这些算法一般以整个图像作为输入,通过运行分类器来识别目标物体。与传统的两阶段目标检测算法不同,它们不需要事先定义区域,而是直接预

超分辨率图像重建是利用深度学习技术,如卷积神经网络(CNN)和生成对抗网络(GAN),从低分辨率图像中生成高分辨率图像的过程。该方法的目标是通过将低分辨率图像转换为高分辨率图像,从而提高图像的质量和细节。这种技术在许多领域都有广泛的应用,如医学影像、监控摄像、卫星图像等。通过超分辨率图像重建,我们可以获得更清晰、更具细节的图像,有助于更准确地分析和识别图像中的目标和特征。重建方法超分辨率图像重建的方法通常可以分为两类:基于插值的方法和基于深度学习的方法。1)基于插值的方法基于插值的超分辨率图像重

老照片修复是利用人工智能技术对老照片进行修复、增强和改善的方法。通过计算机视觉和机器学习算法,该技术能够自动识别并修复老照片中的损坏和缺陷,使其看起来更加清晰、自然和真实。老照片修复的技术原理主要包括以下几个方面:1.图像去噪和增强修复老照片时,需要先对其进行去噪和增强处理。可以使用图像处理算法和滤波器,如均值滤波、高斯滤波、双边滤波等,来解决噪点和色斑问题,从而提升照片的质量。2.图像复原和修复在老照片中,可能存在一些缺陷和损坏,例如划痕、裂缝、褪色等。这些问题可以通过图像复原和修复算法来解决

尺度不变特征变换(SIFT)算法是一种用于图像处理和计算机视觉领域的特征提取算法。该算法于1999年提出,旨在提高计算机视觉系统中的物体识别和匹配性能。SIFT算法具有鲁棒性和准确性,被广泛应用于图像识别、三维重建、目标检测、视频跟踪等领域。它通过在多个尺度空间中检测关键点,并提取关键点周围的局部特征描述符来实现尺度不变性。SIFT算法的主要步骤包括尺度空间的构建、关键点检测、关键点定位、方向分配和特征描述符生成。通过这些步骤,SIFT算法能够提取出具有鲁棒性和独特性的特征,从而实现对图像的高效

本文经自动驾驶之心公众号授权转载,转载请联系出处。原标题:MotionLM:Multi-AgentMotionForecastingasLanguageModeling论文链接:https://arxiv.org/pdf/2309.16534.pdf作者单位:Waymo会议:ICCV2023论文思路:对于自动驾驶车辆安全规划来说,可靠地预测道路代理未来行为是至关重要的。本研究将连续轨迹表示为离散运动令牌序列,并将多智能体运动预测视为语言建模任务。我们提出的模型MotionLM具有以下几个优点:首

在机器学习和计算机视觉领域,图像标注是将人工标注应用于图像数据集的过程。图像标注方法主要可以分为两大类:手动标注和自动标注。手动标注是指人工标注者通过手动操作对图像进行标注。这种方法需要人工标注者具备专业知识和经验,能够准确地识别和注释图像中的目标物体、场景或特征。手动标注的优点是标注结果可靠且准确,但缺点是耗时且成本较高。自动标注是指利用计算机程序对图像进行自动标注的方法。这种方法利用机器学习和计算机视觉技术,通过训练模型来实现自动标注。自动标注的优点是速度快且成本较低,但缺点是标注结果可能不

目标跟踪是计算机视觉中一项重要任务,广泛应用于交通监控、机器人、医学成像、自动车辆跟踪等领域。它是通过深度学习方法,在确定了目标对象的初始位置后,预测或估计视频中每个连续帧中目标对象的位置。目标跟踪在现实生活中有着广泛的应用,并且在计算机视觉领域具有重要意义。目标跟踪通常涉及目标检测的过程。以下是目标跟踪步骤的简要概述:1.对象检测,其中算法通过在对象周围创建边界框来对对象进行分类和检测。2.为每个对象分配唯一标识(ID)。3.在存储相关信息的同时跟踪检测到的对象在帧中的移动。目标跟踪的类型目标
