李飞飞团队新作：脑控机器人做家务，让脑机接口具备少样本学习能力-人工智能-PHP中文网

首页

科技周边

人工智能

李飞飞团队新作：脑控机器人做家务，让脑机接口具备少样本学习能力

王林

Jul 16, 2024 pm 08:38 PM

工程

能动脑的，绝不用动手的。

未来也许只需动动念头，就能让机器人帮你做好家务。斯坦福大学的吴佳俊和李飞飞团队近日提出的 NOIR 系统能让用户通过非侵入式脑电图装置控制机器人完成日常任务。

NOIR 能将你的脑电图信号解码为机器人技能库。它现在已能完成例如烹饪寿喜烧、熨衣服、磨奶酪、玩井字游戏，甚至抚摸机器狗等任务。这个模块化的系统具备强大的学习能力，可以应对日常生活中复杂多变的任务。

大脑与机器人接口（BRI）堪称是人类艺术、科学和工程的集大成之作。我们已经在不胜枚举的科幻作品和创意艺术中见到它，比如《黑客帝国》和《阿凡达》；但真正实现 BRI 却非易事，需要突破性的科学研究，创造出能与人类完美协同运作的机器人系统。

对于这样的系统，一大关键组件是机器与人类通信的能力。在人机协作和机器人学习过程中，人类传达意图的方式包括动作、按按钮、注视、面部表情、语言等等。而通过神经信号直接与机器人通信则是最激动人心却也最具挑战性的前景。

近日，斯坦福大学吴佳俊和李飞飞领导的一个多学科联合团队提出了一种通用型的智能 BRI 系统 NOIR（Neural Signal Operated Intelligent Robots / 神经信号操控的智能机器人）。

论文地址：https://openreview.net/pdf?id=eyykI3UIHa

项目网站：https://noir-corl.github.io/

该系统基于非侵入式的脑电图（EEG）技术。据介绍，该系统依据的主要原理是分层式共享自治（hierarchical shared autonomy），即人类定义高层级目标，而机器人通过执行低层级运动指令来实现目标。该系统纳入了神经科学、机器人学和机器学习领域的新进展，取得了优于之前方法的进步。该团队总结了所做出的贡献。

首先，NOIR 是通用型的，可用于多样化的任务，也易于不同社区使用。研究表明，NOIR 可以完成多达 20 种日常活动；相较之下，之前的 BRI 系统通常是针对一项或少数几项任务设计的，或者就仅仅是模拟系统。此外，只需少量培训，普通人群也能使用 NOIR 系统。

其次，NOIR 中的 I 表示这个机器人系统是智能的（intelligent），具备自适应能力。该机器人配备了一个多样化的技能库，让其无需密集的人类监督也能执行低层级动作。使用参数化的技能原语，比如 Pick (obj-A) 或 MoveTo (x,y)，机器人可以很自然地取得、解读和执行人类的行为目标。

此外，NOIR 系统还有能力在协作过程中学习人类想达成的目标。研究表明，通过利用基础模型的最新进展，该系统甚至能适应很有限的数据。这能显著提升系统的效率。

NOIR 的关键技术贡献包括一个模块化的解码神经信号以获知人类意图的工作流程。要知道，从神经信号解码出人类意图目标是极具挑战性的。为此，该团队的做法是将人类意图分解为三大组分：要操控的物体（What）、与该物体交互的方式（How）、交互的位置（Where）。他们的研究表明可以从不同类型的神经数据中解码出这些信号。这些分解后的信号可以自然地对应于参数化的机器人技能，并且可以有效地传达给机器人。

在 20 项涉及桌面或移动操作的家庭活动（包括制作寿喜烧、熨烫衣物、玩井字棋、摸机器狗狗等）中，三名人类受试者成功地使用了 NOIR 系统，即通过他们的大脑信号完成了这些任务！

实验表明，通过以人类为师进行少样本机器人学习，可以显着提升 NOIR 系统的效率。这种使用人脑信号协作来构建智能机器人系统的方法潜力巨大，可用于为人们（尤其是残障人士）开发至关重要的辅助技术，提升他们的生活品质。

NOIR 系统

这项研究力图解决的挑战包括：1. 如何构建适用于各种任务的通用 BRI 系统？ 2. 如何解码来自人脑的相关通信信号？ 3. 如何提升机器人的智能和适应能力，从而实现更高效的协作？图 2 给出了该系统的概况。

在这个系统中，人类作为规划智能体，做的是感知、规划以及向机器人传达行为目标；而机器人则要使用预定义的原语技能实现这些目标。

为了实现打造通用 BRI 系统的总体目标，需要将这两种设计协同集成到一起。为此，该团队提出了一种全新的大脑信号解码工作流程，并为机器人配备了一套参数化的原始技能库。最后，该团队使用少样本模仿学习技术让机器人具备了更高效的学习能力。

大脑：模块化的解码工作流程

如图3 所示，人类意图会被分解成三个组分：要操控的物体（What）、与该物体交互的方式（How）、交互的位置（Where）。

要从脑电图信号解码出具体的用户意图，难度可不小，但可以通过稳态视觉诱发电位（SSVEP）和运动意象（motor imagery）来完成。简单来说，这个过程包括：

选取具有稳态视觉诱发电位（SSVEP）的物体
通过运动意象（MI）选择技能和参数
通过肌肉收紧来选择确认或中断

机器人：参数化的原语技能

参数化的原语技能可以针对不同的任务进行组合和复用，从而实现复杂多样的操作。此外，对人类而言，这些技能非常直观。人类和智能体都无需了解这些技能的控制机制，因此人们可以通过任何方法实现这些技能，只要它们是稳健的且能适应多样化的任务。

该团队在实验中使用了两台机器人：一台是用于桌面操作任务的 Franka Emika Panda 机械臂，另一台是用于移动操作任务的 PAL Tiago 机器人。下表给出了这两台机器人的原语技能。

使用机器人学习实现高效的 BRI

上述的模块化解码工作流程和原语技能库为 NOIR 奠定了基础。但是，这种系统的效率还能进一步提升。机器人应当能在协作过程中学习用户的物品、技能和参数选择偏好，从而在未来能预测用户希望达成的目标，实现更好的自动化，也让解码更简单容易。由于每一次执行时，物品的位置、姿态、排列和实例可能会有所不同，因此就需要学习和泛化能力。另外，学习算法应当具有较高的样本效率，因为收集人类数据的成本很高。

该团队为此采用了两种方法：基于检索的少样本物品和技能选取、单样本技能参数学习。

基于检索的少样本物品和技能选取。该方法可以学习所观察状态的隐含表征。给定一个观察到的新状态，它会在隐藏空间中找到最相似的状态以及对应的动作。图 4 给出了该方法的概况。

在任务执行期间，由图像和人类选择的「物品 - 技能」对构成的数据点会被记录下来。这些图像首先会被一个预训练的 R3M 模型编码，以提取出对机器人操控任务有用的特征，然后再让它们通过一些可训练的全连接层。这些层的训练使用了带三元组损失的对比学习，这会鼓励带有同样「物品 - 技能」标签的图像在隐藏空间中处于更相近的位置。所学习到的图像嵌入和「物品 - 技能」标签会被存储到内存中。

在测试期间，模型会检索隐藏空间中最近的数据点，然后将与该数据点关联的「物品 - 技能」对建议给人类。

单样本技能参数学习。参数选取需要人类大量参与，因为这个过程需要通过运动意象（MI）进行精准的光标操作。为了减少人类的工作量，该团队提出了一种学习算法，可以根据给定的用作光标控制起始点的「物品 - 技能」对来预测参数。假设用户已经成功定位了拿起一个杯子把手的精确关键点，那么未来还需要再次指定这个参数吗？最近 DINOv2 等基础模型取得了不少进展，已经可以找到相应的语义关键点，从而无需再次指定参数。

相比于之前的工作，这里提出的新算法是单样本的并且预测的是具体的 2D 点，而非语义片段。如图 4 所示，给定一张训练图像（360 × 240）和参数选择 (x, y)，模型预测不同的测试图像中语义上对应的点。该团队具体使用的是预训练的 DINOv2 模型来获取语义特征。

实验和结果

任务。实验选取的任务来自 BEHAVIOR 和 Activities of Daily Living 基准，这两个基准能在一定程度上体现人类的日常需求。图 1 展示了实验任务，其中包含 16 个桌面任务和 4 个移动操作任务。

下面展示了制作三明治和护理新冠病人的实验过程示例。

实验流程。实验过程中，用户待在一个隔离房间中，保持静止，在屏幕上观看机器人，单纯依靠大脑信号与机器人沟通。

系统性能。表 1 总结了两个指标下的系统性能：成功之前的尝试次数和成功时完成任务的时间。

尽管这些任务跨度长，难度大，但 NOIR 还是得到了非常鼓舞人心的结果：平均而言，只需尝试 1.83 次就能完成任务。

解码准确度。解码大脑信号的准确度是 NOIR 系统成功的一大关键。表 2 总结了不同阶段的解码准确度。可以看到，基于 SSVEP 的 CCA（典型相关分析）能达到 81.2% 的高准确度，也就是说物品选取大体上是准确的。

物品和技能选取结果。那么，新提出的机器人学习算法能否提升 NOIR 的效率呢？研究者首先对物品和技能选取学习进行了评估。为此，他们为 MakePasta 任务收集了一个离线数据集，其中每一对「物品 - 技能」都有 15 个训练样本。给定一张图像，当同时预测出了正确的物品和技能时，就认为该预测是正确的。结果见表 3。

使用 ResNet 的简单图像分类模型能实现 0.31 的平均准确度，而基于预训练 ResNet 骨干网络使用新方法时却能达到显著更高的 0.73，这凸显出了对比学习和基于检索的学习的重要性。

单样本参数学习的结果。研究者基于预先收集的数据集将新算法与多个基准进行了比较。表 4 给出了预测结果的 MSE 值。

他们还在 SetTable 任务上展现了参数学习算法在实际任务执行中的有效性。图 5 给出了控制光标移动方面所节省的人类工作量。

李飞飞团队新作：脑控机器人做家务，让脑机接口具备少样本学习能力

以上是李飞飞团队新作：脑控机器人做家务，让脑机接口具备少样本学习能力的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸！

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

Java教程

1672

CakePHP 教程

1428

Laravel 教程

1332

PHP教程

1277

C# 教程

1256

显示更多

Related knowledge

ControlNet作者又出爆款！一张图生成绘画全过程，两天狂揽1.4k Star Jul 17, 2024 am 01:56 AM

同样是图生视频，PaintsUndo走出了不一样的路线。ControlNet作者LvminZhang又开始整活了！这次瞄准绘画领域。新项目PaintsUndo刚上线不久，就收获1.4kstar（还在疯狂涨）。项目地址：https://github.com/lllyasviel/Paints-UNDO通过该项目，用户输入一张静态图像，PaintsUndo就能自动帮你生成整个绘画的全过程视频，从线稿到成品都有迹可循。绘制过程，线条变化多端甚是神奇，最终视频结果和原图像非常相似：我们再来看一个完整的绘

登顶开源AI软件工程师榜首，UIUC无Agent方案轻松解决SWE-bench真实编程问题 Jul 17, 2024 pm 10:02 PM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com这篇论文的作者均来自伊利诺伊大学香槟分校（UIUC）张令明老师团队，包括：StevenXia，四年级博士生，研究方向是基于AI大模型的自动代码修复；邓茵琳，四年级博士生，研究方

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com在人工智能领域的发展过程中，对大语言模型（LLM）的控制与指导始终是核心挑战之一，旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法（RL

arXiv论文可以发「弹幕」了，斯坦福alphaXiv讨论平台上线，LeCun点赞 Aug 01, 2024 pm 05:18 PM

干杯！当论文讨论细致到词句，是什么体验？最近，斯坦福大学的学生针对arXiv论文创建了一个开放讨论论坛——alphaXiv，可以直接在任何arXiv论文之上发布问题和评论。网站链接：https://alphaxiv.org/其实不需要专门访问这个网站，只需将任何URL中的arXiv更改为alphaXiv就可以直接在alphaXiv论坛上打开相应论文：可以精准定位到论文中的段落、句子：右侧讨论区，用户可以发表问题询问作者论文思路、细节，例如：也可以针对论文内容发表评论，例如：「给出至

OpenAI超级对齐团队遗作：两个大模型博弈一番，输出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型给的答案一点也看不懂，你敢用吗？随着机器学习系统在更重要的领域得到应用，证明为什么我们可以信任它们的输出，并明确何时不应信任它们，变得越来越重要。获得对复杂系统输出结果信任的一个可行方法是，要求系统对其输出产生一种解释，这种解释对人类或另一个受信任的系统来说是可读的，即可以完全理解以至于任何可能的错误都可以被发现。例如，为了建立对司法系统的信任，我们要求法院提供清晰易读的书面意见，解释并支持其决策。对于大型语言模型来说，我们也可以采用类似的方法。不过，在采用这种方法时，确保语言模型生

黎曼猜想显着突破！陶哲轩强推MIT、牛津新论文，37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近，被称为千禧年七大难题之一的黎曼猜想迎来了新突破。黎曼猜想是数学中一个非常重要的未解决问题，与素数分布的精确性质有关（素数是那些只能被1和自身整除的数字，它们在数论中扮演着基础性的角色）。在当今的数学文献中，已有超过一千条数学命题以黎曼猜想（或其推广形式）的成立为前提。也就是说，黎曼猜想及其推广形式一旦被证明，这一千多个命题将被确立为定理，对数学领域产生深远的影响；而如果黎曼猜想被证明是错误的，那么这些命题中的一部分也将随之失去其有效性。新的突破来自MIT数学教授LarryGuth和牛津大学

LLM用于时序预测真的不行，连推理能力都没用到 Jul 15, 2024 pm 03:59 PM

语言模型真的能用于时序预测吗？根据贝特里奇头条定律（任何以问号结尾的新闻标题，都能够用「不」来回答），答案应该是否定的。事实似乎也果然如此：强大如斯的LLM并不能很好地处理时序数据。时序，即时间序列，顾名思义，是指一组按照时间发生先后顺序进行排列的数据点序列。在很多领域，时序分析都很关键，包括疾病传播预测、零售分析、医疗和金融。在时序分析领域，近期不少研究者都在研究如何使用大型语言模型（LLM）来分类、预测和检测时间序列中的异常。这些论文假设擅长处理文本中顺序依赖关系的语言模型也能泛化用于时间序

首个基于Mamba的MLLM来了！模型权重、训练代码等已全部开源 Jul 17, 2024 am 02:46 AM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com。引言近年来，多模态大型语言模型（MLLM）在各个领域的应用取得了显着的成功。然而，作为许多下游任务的基础模型，当前的MLLM由众所周知的Transformer网络构成，这种网

See all articles

李飞飞团队新作：脑控机器人做家务，让脑机接口具备少样本学习能力

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题