用MoE横扫99个子任务！浙大等提出全新通用机器人策略GeRM-人工智能-PHP中文网

方法

首页

科技周边

人工智能

用MoE横扫99个子任务！浙大等提出全新通用机器人策略GeRM

王林

Apr 17, 2024 pm 11:40 PM

git ai 模型

多任务机器人学习在应对多样化和复杂情景方面具有重要意义。然而，当前的方法受到性能问题和收集训练数据集的困难的限制。

这篇论文提出了GeRM（通用机器人模型），研究人员利用离线强化学习来优化数据利用策略，从演示和次优数据中学习，从而超越了人类演示的局限性。

用MoE横扫99个子任务！浙大等提出全新通用机器人策略GeRM

作者：宋文轩，赵晗，丁鹏翔，崔灿，吕尚可，范亚凝，王东林

单位：西湖大学、浙江大学

论文地址：https://arxiv.org/abs/2403.13358

项目地址：https://songwxuan.github.io/GeRM/

之后采用基于Transformer的视觉-语言-动作模型来处理多模态输入并输出动作。

通过引入专家混合结构，GeRM实现了更快的推理速度和更高的整体模型容量，从而解决了强化学习参数量受限的问题，提高了多任务学习中的模型性能，同时控制了计算成本。

通过一系列实验证明，GeRM在所有任务中均优于其他方法，同时验证了其在训练和推理过程中的效率。

此外，研究人员还提供了QUARD-Auto数据集以支持训练，该数据集的构建遵循文中提出的数据自动化收集的新范式，该方法可以降低收集机器人数据的成本，推动多任务学习社区的进步。

主要贡献：

1. 首次提出了用于四足强化学习的混合专家模型，其在混合质量的数据上进行训练，从而具备习得最优策略的潜力。

2. 与现有方法相比，GeRM在只激活自身1/2参数的情况下展现出更高的成功率，激活了涌现能力，同时在训练过程中展现了更优的数据利用策略。

3.提出了一个全自动机器人数据集收集的范式，并收集了一个大规模开源数据集。

方法

GeRM网络结构如图1所示，包含示范数据和失败数据的视觉-语言输入，分别经过编码器和tokenizer后输入到8层混合专家结构的decoder中，并生成动作token，最终转化为离散的机器人动作数据并通过底层策略部署到机器人上，此外我们用强化学习的方式进行训练。

用MoE横扫99个子任务！浙大等提出全新通用机器人策略GeRM

图1 GeRM网络结构图

GeRM Decoder是一个包含 Transformer Decoder架构模型，其中前馈网络（FFN）从一组 8 个不同的专家网络中选择。

在每一层，对于每一个标记，门控网络选择两个专家来处理token，并将它们的输出加权组合。

不同的专家擅长不同的任务/不同的动作维度，以解决不同场景中的问题，从而学习跨多个任务的通用模型。该架构扩大了网络参数量，同时保持计算成本基本不变。

用MoE横扫99个子任务！浙大等提出全新通用机器人策略GeRM

图2 Decoder结构图

我们提出了一个自动的范式来收集机器人多模态数据。通过这种方式，我们构建了一个大规模的机器人数据集QUARD-Auto，其中包含演示和次优数据的组合。它包括5个任务和99个子任务，总共有257k条轨迹。我们将进行开源以促进机器人社区发展。

用MoE横扫99个子任务！浙大等提出全新通用机器人策略GeRM

表1 数据集介绍

用MoE横扫99个子任务！浙大等提出全新通用机器人策略GeRM

图3 数据量统计

实验

我们进行了一系列全面而可靠的实验，涵盖了所有 99 个子任务，每个子任务进行了 400 条轨迹的精心测试。

如表1所示，GeRM在所有任务中具有最高的成功率。与 RT-1 和其他GeRM 的变体相比，它有效地从混合质量的数据中学习，优于其他方法，并在多任务中展现出优越的能力。与此同时，MoE 模块通过在推理时激活部分参数来平衡计算成本和性能。

用MoE横扫99个子任务！浙大等提出全新通用机器人策略GeRM

表2 多任务对比实验

GeRM表现出令人称赞的训练效率。与其他方法相比，GeRM 仅需极少的batch就获得了极低的Loss和较高的成功率，凸显了GeRM优化数据利用策略的能力。

用MoE横扫99个子任务！浙大等提出全新通用机器人策略GeRM

图4 成功率/Loss变化曲线

GeRM 在动态自适应路径规划方面展现出了涌现能力。如视频所示，四足机器人在初始位置视野受限，难以确定移动方向。为了避开障碍物，它随机选择向左转。

随后，在遇到错误的视觉输入后，机器人执行了大幅度的重新定向，以与原始视野之外的正确目标对齐。然后，它继续向目的地驶去，最终完成任务。

值得注意的是，这样的轨迹不属于我们的训练数据集分布之内。这表明 GeRM 在场景背景下的动态自适应路径规划方面具有涌现能力，即它能够根据视觉感知进行决策、规划未来路径，并根据需要改变下一步行动。

用MoE横扫99个子任务！浙大等提出全新通用机器人策略GeRM

图5 涌现能力

以上是用MoE横扫99个子任务！浙大等提出全新通用机器人策略GeRM的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7697

Java教程

1640

CakePHP 教程

1393

Laravel 教程

1287

PHP教程

1229

显示更多

Related knowledge

跨链交易什么意思？跨链交易所有哪些？ Apr 21, 2025 pm 11:39 PM

支持跨链交易的交易所有：1. Binance，2. Uniswap，3. SushiSwap，4. Curve Finance，5. Thorchain，6. 1inch Exchange，7. DLN Trade，这些平台通过各种技术支持多链资产交易。

WorldCoin（WLD）价格预测2025-2031：到2031年WLD会达到4美元吗？ Apr 21, 2025 pm 02:42 PM

WorldCoin(WLD)凭借其独特的生物识别验证和隐私保护机制，在加密货币市场中脱颖而出，吸引了众多投资者的目光。 WLD凭借其创新技术，特别是结合OpenAI人工智能技术，在众多山寨币中表现突出。但未来几年，数字资产的走势如何呢？让我们一起预测WLD的未来价格。 2025年WLD价格预测预计2025年WLD将实现显着增长。市场分析显示，WLD平均价格可能达到1.31美元，最高可能触及1.36美元。然而，在熊市情况下，价格可能跌至0.55美元左右。这一增长预期主要源于WorldCoin2.

对于加密货币行业来说，'黑色星期一抛售”是艰难的一天 Apr 21, 2025 pm 02:48 PM

加密货币市场暴跌引发投资者恐慌，Dogecoin(Doge)成为重灾区之一。其价格大幅下挫，去中心化金融(DeFi)总价值锁定(TVL)也出现显着下降。 “黑色星期一”的抛售潮席卷加密货币市场，Dogecoin首当其冲。其DeFiTVL跌至2023年水平，币价在过去一个月内下跌23.78%。 Dogecoin的DeFiTVL降至272万美元的低点，主要原因是SOSO价值指数下跌26.37%。其他主要DeFi平台，如无聊的Dao和Thorchain，TVL也分别下降了24.04%和20.

币圈杠杆交易所排名币圈十大杠杆交易所APP最新推荐 Apr 21, 2025 pm 11:24 PM

2025年在杠杆交易、安全性和用户体验方面表现突出的平台有：1. OKX，适合高频交易者，提供最高100倍杠杆；2. Binance，适用于全球多币种交易者，提供125倍高杠杆；3. Gate.io，适合衍生品专业玩家，提供100倍杠杆；4. Bitget，适用于新手及社交化交易者，提供最高100倍杠杆；5. Kraken，适合稳健型投资者，提供5倍杠杆；6. Bybit，适用于山寨币探索者，提供20倍杠杆；7. KuCoin，适合低成本交易者，提供10倍杠杆；8. Bitfinex，适合资深玩

Aavenomics是修改AAVE协议令牌并介绍令牌回购的建议，已达到法定人数 Apr 21, 2025 pm 06:24 PM

Aavenomics是修改AAVE协议令牌并引入令牌回购的提议，已为AAVEDAO实现了一个法定人数。AAVE连锁计划（ACI）创始人马克·泽勒（MarcZeller）在X上宣布了这一点，并指出它标志着该协议的新时代。AAVE连锁倡议（ACI）创始人MarcZeller在X上宣布，Aavenomics提案包括修改AAVE协议令牌和引入令牌回购，已为AAVEDAO实现了法定人数。根据Zeller的说法，这标志着该协议的新时代。AaveDao成员以压倒性的投票支持该提议，即在周三以每周100

十大加密货币交易所平台世界最大的数字货币交易所榜单 Apr 21, 2025 pm 07:15 PM

在当今的加密货币市场中，交易所扮演着至关重要的角色，它们不仅是投资者进行买卖交易的平台，更是市场流动性和价格发现的重要来源。全球最大的虚拟货币交易所排行前十，这些交易所不仅在交易量上遥遥领先，而且在用户体验、安全性和创新服务方面也各有千秋。排行榜首的交易所通常拥有庞大的用户基础和广泛的市场影响力，它们的交易量和资产种类往往是其他交易所难以企及的。