谷歌DeepMind：将大模型与强化学习相结合，打造机器人感知世界的智能大脑-人工智能-PHP中文网

方法概览

实验结果

首页

科技周边

人工智能

谷歌DeepMind：将大模型与强化学习相结合，打造机器人感知世界的智能大脑

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Sep 22, 2023 am 09:53 AM

ai 模型

在开发机器人学习方法时，如果能整合大型多样化数据集，再组合使用强大的富有表现力的模型（如 Transformer），那么就有望开发出具备泛化能力且广泛适用的策略，从而让机器人能学会很好地处理各种不同的任务。比如说，这些策略可让机器人遵从自然语言指令，执行多阶段行为，适应各种不同环境和目标，甚至适用于不同的机器人形态。

但是，近期在机器人学习领域出现的强大模型都是使用监督学习方法训练得到的。因此，所得策略的性能表现受限于人类演示者提供高质量演示数据的程度。这种限制的原因有二。

第一，我们希望机器人系统能比人类远程操作者更加熟练，利用硬件的全部潜力来快速、流畅和可靠地完成任务。
第二，我们希望机器人系统能更擅长自动积累经验，而不是完全依赖高质量的演示。

从原理上看，强化学习能同时提供这两种能力。

近期出现了一些具有潜力的进展，表明大规模机器人强化学习在多种应用场景中能够取得成功，比如机器人的抓取和堆叠能力、学习具有人类指定奖励的不同任务、学习多任务策略、学习基于目标的策略以及机器人导航。然而，研究表明，如果使用强化学习来训练Transformer等功能强大的模型，则更难以有效地进行大规模实例化

Google DeepMind 最近提出了 Q-Transformer，旨在将基于多样化真实世界数据集的大规模机器人学习与基于强大 Transformer 的现代策略架构结合起来

谷歌DeepMind：将大模型与强化学习相结合，打造机器人感知世界的智能大脑

论文：https://q-transformer.github.io/assets/q-transformer.pdf
项目：https://q-transformer.github.io/

尽管从原理上来看，直接使用Transformer来替代现有的架构（如ResNets或更小的卷积神经网络）在概念上很简单，但设计一种能够有效利用这种架构的方案却非常困难。只有在能够使用大规模多样化的数据集时，大型模型才能发挥其效力-小规模、范围狭窄的模型并不需要这种能力，也无法从中获益

尽管之前有研究通过仿真数据来创建这样的数据集，但最有代表性的数据还是来自真实世界。

因此，DeepMind 表示，该研究的重点是通过离线强化学习利用 Transformer 并整合之前收集的大型数据集

离线强化学习方法是利用先前已有的数据进行训练，其目标是根据给定的数据集推导出最有效的可能策略。当然，也可以利用额外自动收集的数据来增强这个数据集，但训练过程与数据收集过程是分开的，这为大规模机器人应用提供了一个额外的工作流程

在使用 Transformer 模型来实现强化学习方面，另一大问题是设计一个可以有效训练这种模型的强化学习系统。有效的离线强化学习方法通常是通过时间差更新来进行 Q 函数估计。由于 Transformer 建模的是离散的 token 序列，所以可以将 Q 函数估计问题转换成一个离散 token 序列建模问题，并为序列中的每个 token 设计一个合适的损失函数。

DeepMind 采用的方法是按维度离散化方案，这是为了避免动作基数呈指数爆炸。具体而言，动作空间的每个维度都被视为强化学习中的一个独立时间步骤。离散化中的不同 bin 对应于不同的动作。这种按维度离散化的方案使得我们可以使用带有一个保守的正则化器的简单离散动作 Q 学习方法来处理分布转变情况

DeepMind 提出了一种专门的正则化器，其旨在最小化未被使用动作的值。研究表明，这种方法可以有效地学习范围狭窄的类似演示的数据，并且也可以学习带有探索噪声的范围更广的数据

最后，他们还采用了一种混合更新机制，其将蒙特卡洛和 n 步返回与时间差备份（temporal difference backups）组合到了一起。结果表明这种做法能提升基于 Transformer 的离线强化学习方法在大规模机器人学习问题上的表现。

这项研究的主要贡献是Q-Transformer，它是一种基于Transformer架构的用于机器人离线强化学习的方法。Q-Transformer对Q值进行了按维度的token化，并且已经成功应用于大规模多样化的机器人数据集，包括真实世界数据。图1展示了Q-Transformer的组件

谷歌DeepMind：将大模型与强化学习相结合，打造机器人感知世界的智能大脑

DeepMind 进行了实验评估，包括仿真实验和大规模真实世界实验，旨在严格比较和实际验证。其中，我们采用了大规模的基于文本的多任务策略进行学习，并验证了 Q-Transformer 的有效性

在真实世界实验中，他们使用的数据集包含 3.8 万个成功演示和 2 万个失败的自动收集的场景，这些数据是通过 13 台机器人在 700 多个任务上收集的。Q-Transformer 的表现优于之前提出的用于大规模机器人强化学习的架构，以及之前提出的 Decision Transformer 等基于 Transformer 的模型。

方法概览

为了使用Transformer进行Q学习，DeepMind采取的方法是对动作空间进行离散化和自回归处理

要学习一个使用TD学习的Q函数，经典方法基于贝尔曼更新规则

谷歌DeepMind：将大模型与强化学习相结合，打造机器人感知世界的智能大脑

研究者对贝尔曼更新进行了修改，使之能为每个动作维度执行，做法是将问题的原始 MDP 转换成每个动作维度都被视为 Q 学习的一个步骤的 MDP。

具体而言，对于给定的动作维度 d_A，新的贝尔曼更新规则可以表述为：

谷歌DeepMind：将大模型与强化学习相结合，打造机器人感知世界的智能大脑

这意味着对于每个中间动作维度，要在给定相同状态的情况下最大化下一个动作维度，而对于最后一个动作维度，使用下一状态的第一个动作维度。这种分解能确保贝尔曼更新中的最大化依然易于处理，同时还能确保原始 MDP 问题仍可得到解决。

谷歌DeepMind：将大模型与强化学习相结合，打造机器人感知世界的智能大脑

为了兼顾离线学习过程中的分布变化情况，DeepMind 还引入了一种简单的正则化技术，其是将未曾见过的动作的值降到最低。

为了加快学习速度，他们还采用了蒙特卡洛返回方法。这种方法不仅使用了对于给定事件片段（episode）的返回即用（return-to-go），还使用了可跳过按维度最大化的 n 步返回（n-step returns）

实验结果

在实验中，DeepMind对Q-Transformer进行了评估，涵盖了一系列真实世界任务。同时，他们还将每个任务的数据限制在只包含100个人类演示的范围内

在演示中，除了演示之外，他们还添加了自动收集的失败事件片段，以创建一个数据集。这个数据集包含了来自演示的3.8万个正例和2万个自动收集的负例

谷歌DeepMind：将大模型与强化学习相结合，打造机器人感知世界的智能大脑

相比于RT-1、IQL 和Decision Transformer (DT) 等基准方法，Q-Transformer 可以有效地利用自动事件片段来显着提升其使用技能的能力，这些技能包括从抽屉里取放物品、将物体移动到目标附近、开关抽屉。

研究者还在一个高难度的模拟取物任务上对新提出的方法进行了测试—— 在该任务中，仅有约8% 的数据是正例，其余的都是充满噪声的负例。

在这个任务中，Q-学习方法如QT-Opt、IQL、AW-Opt和Q-Transformer通常表现更好，因为它们能够利用动态规划来学习策略，并利用负例进行优化

谷歌DeepMind：将大模型与强化学习相结合，打造机器人感知世界的智能大脑

基于这个取物任务，研究者进行了消融实验，结果发现保守的正则化器和MC 返回都对保持性能很重要。如果切换成 Softmax 正则化器，性能表现显着更差，因为这会将策略过于限制在数据分布中。这说明 DeepMind 这里选择的正则化器能更好地应对这个任务。

谷歌DeepMind：将大模型与强化学习相结合，打造机器人感知世界的智能大脑

他们对于n步返回的消融实验发现，尽管这可能会引入偏差，但这种方法可以在显着更少的梯度步骤内实现同等的高性能，有效地处理许多问题

谷歌DeepMind：将大模型与强化学习相结合，打造机器人感知世界的智能大脑

研究人员还尝试在更大规模的数据集上运行Q-Transformer。他们将正例数量扩大到11.5万，负例数量增至18.5万，从而得到一个包含30万个事件片段的数据集。使用这个大型数据集，Q-Transformer仍然能够学习，并且甚至比RT-1 BC基准表现更好

谷歌DeepMind：将大模型与强化学习相结合，打造机器人感知世界的智能大脑

最后，他们将Q-Transformer训练的Q函数作为可供性模型（ affordance model）与语言规划器组合在一起，类似于SayCan

谷歌DeepMind：将大模型与强化学习相结合，打造机器人感知世界的智能大脑

Q-Transformer 可供性估计的效果由于之前的使用QT-Opt 训练的Q 函数；如果再将未被采样的任务重新标注为训练期间当前任务的负例，效果还能更好。由于 Q-Transformer 不需要 QT-Opt 训练使用的模拟到真实（sim-to-real）训练，因此如果缺乏合适的模拟，那么使用 Q-Transformer 会更容易。

为了测试完整的「规划 + 执行」系统，他们实验了使用 Q-Transformer 同时进行可供性估计和实际策略执行，结果表明它优于之前的 QT-Opt 和 RT-1 组合。

谷歌DeepMind：将大模型与强化学习相结合，打造机器人感知世界的智能大脑

从给定图像的任务可供性值示例中可以观察到，Q-Transformer 在下游的「规划+ 执行」框架中能够提供高质量的可供性值

请阅读原文以获取更多详细内容

以上是谷歌DeepMind：将大模型与强化学习相结合，打造机器人感知世界的智能大脑的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7467

CakePHP 教程

1376

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

Laravel的地理空间：互动图和大量数据的优化 Apr 08, 2025 pm 12:24 PM

利用地理空间技术高效处理700万条记录并创建交互式地图本文探讨如何使用Laravel和MySQL高效处理超过700万条记录，并将其转换为可交互的地图可视化。初始挑战项目需求：利用MySQL数据库中700万条记录，提取有价值的见解。许多人首先考虑编程语言，却忽略了数据库本身：它能否满足需求？是否需要数据迁移或结构调整？MySQL能否承受如此大的数据负载？初步分析：需要确定关键过滤器和属性。经过分析，发现仅少数属性与解决方案相关。我们验证了过滤器的可行性，并设置了一些限制来优化搜索。地图搜索基于城

如何设置Vue Axios的超时时间 Apr 07, 2025 pm 10:03 PM

为了设置 Vue Axios 的超时时间，我们可以创建 Axios 实例并指定超时选项：在全局设置中：Vue.prototype.$axios = axios.create({ timeout: 5000 })；在单个请求中：this.$axios.get('/api/users', { timeout: 10000 })。

mysql 无法启动怎么解决 Apr 08, 2025 pm 02:21 PM

MySQL启动失败的原因有多种，可以通过检查错误日志进行诊断。常见原因包括端口冲突（检查端口占用情况并修改配置）、权限问题（检查服务运行用户权限）、配置文件错误（检查参数设置）、数据目录损坏（恢复数据或重建表空间）、InnoDB表空间问题（检查ibdata1文件）、插件加载失败（检查错误日志）。解决问题时应根据错误日志进行分析，找到问题的根源，并养成定期备份数据的习惯，以预防和解决问题。

mysql安装后怎么使用 Apr 08, 2025 am 11:48 AM

文章介绍了MySQL数据库的上手操作。首先，需安装MySQL客户端，如MySQLWorkbench或命令行客户端。1.使用mysql-uroot-p命令连接服务器，并使用root账户密码登录；2.使用CREATEDATABASE创建数据库，USE选择数据库；3.使用CREATETABLE创建表，定义字段及数据类型；4.使用INSERTINTO插入数据，SELECT查询数据，UPDATE更新数据，DELETE删除数据。熟练掌握这些步骤，并学习处理常见问题和优化数据库性能，才能高效使用MySQL。

偏远的高级后端工程师（平台）需要圈子 Apr 08, 2025 pm 12:27 PM

远程高级后端工程师职位空缺公司：Circle地点：远程办公职位类型：全职薪资：$130,000-$140,000美元职位描述参与Circle移动应用和公共API相关功能的研究和开发，涵盖整个软件开发生命周期。主要职责独立完成基于RubyonRails的开发工作，并与React/Redux/Relay前端团队协作。为Web应用构建核心功能和改进，并在整个功能设计过程中与设计师和领导层紧密合作。推动积极的开发流程，并确定迭代速度的优先级。要求6年以上复杂Web应用后端

mysql 能返回 json 吗 Apr 08, 2025 pm 03:09 PM

MySQL 可返回 JSON 数据。JSON_EXTRACT 函数可提取字段值。对于复杂查询，可考虑使用 WHERE 子句过滤 JSON 数据，但需注意其性能影响。MySQL 对 JSON 的支持在不断增强，建议关注最新版本及功能。

了解 ACID 属性：可靠数据库的支柱 Apr 08, 2025 pm 06:33 PM

数据库ACID属性详解ACID属性是确保数据库事务可靠性和一致性的一组规则。它们规定了数据库系统处理事务的方式，即使在系统崩溃、电源中断或多用户并发访问的情况下，也能保证数据的完整性和准确性。ACID属性概述原子性(Atomicity):事务被视为一个不可分割的单元。任何部分失败，整个事务回滚，数据库不保留任何更改。例如，银行转账，如果从一个账户扣款但未向另一个账户加款，则整个操作撤销。begintransaction;updateaccountssetbalance=balance-100wh

mysql 主键可以为 null Apr 08, 2025 pm 03:03 PM

MySQL 主键不可以为空，因为主键是唯一标识数据库中每一行的关键属性，如果主键可以为空，则无法唯一标识记录，将会导致数据混乱。使用自增整型列或 UUID 作为主键时，应考虑效率和空间占用等因素，选择合适的方案。

See all articles

谷歌DeepMind：将大模型与强化学习相结合，打造机器人感知世界的智能大脑

方法概览

实验结果

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题