用7500条轨迹数据训练,CMU、Meta让机器人达到全能的厅堂与厨房水平
仅仅通过使用7500条轨迹数据进行训练,这个机器人可以展示出12种不同的操作技能,在38个任务中,不仅仅限于拾取和推动,还包括关节对象操纵和物体重新定位。而且,这些技能还可以应用于数百个不同的未知情境,包括未知物体、未知任务,甚至完全未知的厨房环境。这样的机器人真的很酷吧!
数十年来,创造一个能够在不同环境中操纵任意物体的机器人一直是一个遥不可及的目标。其中一个原因是缺乏多样化的机器人数据集,无法训练这样的智能体,同时也缺乏能够生成此类数据集的通用智能体
为了克服这个难题,来自卡内基梅隆大学和Meta AI的作者花费了两年时间开发了一个通用的RoboAgent。他们的主要目标是开发一种高效的范例,可以在数据有限的情况下训练一个能够具备多种技能的通用智能体,并将这些技能推广应用于各种未知情境
RoboAgent 由以下模块化构成 :
- RoboPen - 一个采用通用硬件构建的分布式机器人基础设施,能够长期不间断运行;
- RoboHive - 一个统一的框架,用于在模拟和真实世界操作中进行机器人学习;
- RoboSet - 一个高质量的数据集,代表了各种场景中使用日常物品的多种技能;
- MT-ACT - 一种高效的语言条件多任务离线模仿学习框架,通过在现有机器人经验的基础上创建多样的语义增强集合,从而扩大了离线数据集,并采用了一种新颖的策略架构和高效的动作表示方法,在有限的数据预算下恢复出性能良好的策略。
RoboSet:多技能、多任务、多模态数据集
构建一个能够在许多不同情境下推广的机器人智能体,首先需要一个具有广泛覆盖范围的数据集。鉴于扩大规模的努力通常会有所帮助(例如,RT-1 展示了约 130,000 条机器人轨迹的结果),因此需要在数据集有限的情况下理解学习系统的效率和泛化原则,低数据情境往往会导致过拟合。因此,作者的主要目标是开发一种强大的范例,可以在低数据情境下学习可推广的通用策略,同时避免过拟合问题。
机器人学习中的技能与数据全景是一个重要的领域。在机器人学习中,技能是指机器人通过学习和训练获得的能力,可以用于执行特定的任务。这些技能的发展离不开大量的数据支持。数据是机器人学习的基础,通过分析和处理数据,机器人可以从中学习并改进自己的技能。因此,技能和数据是机器人学习中不可或缺的两个方面。只有通过不断学习和获取新的数据,机器人才能不断提升自己的技能水平,并在各种任务中展现出更高的智能和效率
用于训练 RoboAgent 的数据集 RoboSet(MT-ACT)仅包括 7,500 条轨迹(比 RT-1 的数据少 18 倍)。该数据集提前收集并保持冻结状态。该数据集由在多个任务和场景中使用商品机器人硬件(Franka-Emika 机器人配备 Robotiq 夹具)进行人类遥操作收集的高质量轨迹组成。RoboSet(MT-ACT)在几个不同的情境下稀疏地涵盖了 12 种独特技能。数据通过将日常厨房活动(如泡茶、烘焙)分为不同的子任务来收集,每个子任务代表一个独特的技能。数据集包括常见的拾取 - 放置技能,还包括接触丰富的技能,如擦拭、盖盖子,以及涉及关节物体的技能。 重写后的内容: 用于训练 RoboAgent 的数据集 RoboSet(MT-ACT)仅包括 7,500 条轨迹(比 RT-1 的数据少 18 倍)。该数据集提前收集并保持冻结状态。该数据集由在多个任务和场景中使用商品机器人硬件(Franka-Emika 机器人配备 Robotiq 夹具)进行人类遥操作收集的高质量轨迹组成。RoboSet(MT-ACT)在几个不同的情境下稀疏地涵盖了 12 种独特技能。数据通过将日常厨房活动(如泡茶、烘焙)分为不同的子任务来收集,每个子任务代表一个独特的技能。数据集包括常见的拾取 - 放置技能,还包括接触丰富的技能,如擦拭、盖盖子,以及涉及关节物体的技能
MT-ACT:多任务动作分块 Transformer
RoboAgent基于两个关键洞察在低数据情境下学习通用策略。它利用基础模型的世界先验知识以避免模式崩溃,并采用了一种新颖的高效策略表示,能够摄取高度多模态的数据
需要进行改写的内容是:1、语义增强:RoboAgent通过对RoboSet(MT-ACT)进行语义增强,将来自现有基础模型的世界先验知识注入其中。由此产生的数据集将机器人的经验与世界先验知识相结合,而无需额外的人力/机器人成本。使用SAM对目标物体进行分割,并在形状、颜色、纹理变化方面对其进行语义增强。 改写后的内容:1、语义增强:RoboAgent通过对RoboSet(MT-ACT)进行语义增强,将来自现有基础模型的世界先验知识注入其中。这样,机器人的经验和世界先验知识就能结合起来,而不需要额外的人力/机器人成本。使用SAM对目标物体进行分割,并在形状、颜色、纹理变化方面进行语义增强
2、高效策略表示:由此产生的数据集是严重多模态的,包含丰富多样的技能、任务和情景。我们将动作分块方法应用于多任务设置,开发了一种新颖的高效策略表示——MT-ACT,能够在数据量较少的情况下获取高度多模态的数据集,同时避免过拟合问题
实验结果
RoboAgent的样本效率比现有方法更高
下图比较了作者提出的MT-ACT策略表示与几种模仿学习架构。作者仅使用了包括物体姿态变化和部分光照变化的环境变化。与之前的研究相似,作者将此归于L1泛化。从RoboAgent的结果可以清楚地看到,使用动作分块来建模子轨迹明显优于所有基准方法,从而更证明了作者提出的策略表示在样本效率学习方面的有效性
RoboAgent 在多个抽象层面上表现出色
在下图中展示了作者对不同泛化层次上测试方法的结果。同时,还通过可视化展示了泛化级别,其中L1代表物体姿态变化,L2代表多样的桌面背景和干扰因素,L3代表新颖的技能-物体组合。接下来,作者展示了每种方法在这些泛化层次上的表现。在严格的评估研究中,MT-ACT在比其他方法中表现显着优异,特别是在更困难的泛化层次(L3)上
RoboAgent 具有高度的可扩展性
作者对RoboAgent在不断增加的语义增强级别下的表现进行了评估,并在一个包含5个技能的活动中进行了评估。从下图可以看出,随着数据的增加(即每帧增强的数量增加),在所有泛化级别上的性能都有显着提升。尤其值得注意的是,在更难的任务(L3泛化)中,性能提升更为明显
RoboAgent 能够展示其技能在各种不同的活动中
以上是用7500条轨迹数据训练,CMU、Meta让机器人达到全能的厅堂与厨房水平的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

0.这篇文章干了啥?提出了DepthFM:一个多功能且快速的最先进的生成式单目深度估计模型。除了传统的深度估计任务外,DepthFM还展示了在深度修复等下游任务中的最先进能力。DepthFM效率高,可以在少数推理步骤内合成深度图。下面一起来阅读一下这项工作~1.论文信息标题:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

波士顿动力Atlas,正式进入电动机器人时代!昨天,液压Atlas刚刚「含泪」退出历史舞台,今天波士顿动力就宣布:电动Atlas上岗。看来,在商用人形机器人领域,波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后,短短十几小时内,就已经有一百多万观看。旧人离去,新角色登场,这是历史的必然。毫无疑问,今年是人形机器人的爆发年。网友锐评:机器人的进步,让今年看起来像人类的开幕式动作、自由度远超人类,但这真不是恐怖片?视频一开始,Atlas平静地躺在地上,看起来应该是仰面朝天。接下来,让人惊掉下巴

什么?疯狂动物城被国产AI搬进现实了?与视频一同曝光的,是一款名为「可灵」全新国产视频生成大模型。Sora利用了相似的技术路线,结合多项自研技术创新,生产的视频不仅运动幅度大且合理,还能模拟物理世界特性,具备强大的概念组合能力和想象力。数据上看,可灵支持生成长达2分钟的30fps的超长视频,分辨率高达1080p,且支持多种宽高比。另外再划个重点,可灵不是实验室放出的Demo或者视频结果演示,而是短视频领域头部玩家快手推出的产品级应用。而且主打一个务实,不开空头支票、发布即上线,可灵大模型已在快影

哭死啊,全球狂炼大模型,一互联网的数据不够用,根本不够用。训练模型搞得跟《饥饿游戏》似的,全球AI研究者,都在苦恼怎么才能喂饱这群数据大胃王。尤其在多模态任务中,这一问题尤为突出。一筹莫展之际,来自人大系的初创团队,用自家的新模型,率先在国内把“模型生成数据自己喂自己”变成了现实。而且还是理解侧和生成侧双管齐下,两侧都能生成高质量、多模态的新数据,对模型本身进行数据反哺。模型是啥?中关村论坛上刚刚露面的多模态大模型Awaker1.0。团队是谁?智子引擎。由人大高瓴人工智能学院博士生高一钊创立,高

在工业自动化技术领域,最近有两个热点很难被忽视:人工智能(AI)和英伟达(Nvidia)。不要改变原内容的意思,微调内容,重写内容,不要续写:“不仅如此,这两者密切相关,因为英伟达在不仅仅局限于其最开始的图形处理单元(GPU),正在将其GPU技术扩展到数字孪生领域,同时紧密连接着新兴的AI技术。”最近,英伟达与众多工业企业达成了合作,包括领先的工业自动化企业,如Aveva、罗克韦尔自动化、西门子和施耐德电气,以及泰瑞达机器人及其MiR和优傲机器人公司。Recently,Nvidiahascoll

这周,由OpenAI、微软、贝佐斯和英伟达投资的机器人公司FigureAI宣布获得接近7亿美元的融资,计划在未来一年内研发出可独立行走的人形机器人。而特斯拉的擎天柱也屡屡传出好消息。没人怀疑,今年会是人形机器人爆发的一年。一家位于加拿大的机器人公司SanctuaryAI最近发布了一款全新的人形机器人Phoenix。官方号称它能以和人类一样的速率自主完成很多工作。世界上第一台能以人类速度自主完成任务的机器人Pheonix可以轻轻地抓取、移动并优雅地将每个对象放置在它的左右两侧。它能够自主识别物体的

机器之能报道编辑:吴昕国内版的人形机器人+大模型组队,首次完成叠衣服这类复杂柔性材料的操作任务。随着融合了OpenAI多模态大模型的Figure01揭开神秘面纱,国内同行的相关进展一直备受关注。就在昨天,国内"人形机器人第一股"优必选发布了人形机器人WalkerS深入融合百度文心大模型后的首个Demo,展示了一些有趣的新功能。现在,得到百度文心大模型能力加持的WalkerS是这个样子的。和Figure01一样,WalkerS没有走动,而是站在桌子后面完成一系列任务。它可以听从人类的命令,折叠衣物

最近,军事圈被这个消息刷屏了:美军的战斗机,已经能由AI完成全自动空战了。是的,就在最近,美军的AI战斗机首次公开,揭开了神秘面纱。这架战斗机的全名是可变稳定性飞行模拟器测试飞机(VISTA),由美空军部长亲自搭乘,模拟了一对一的空战。5月2日,美国空军部长FrankKendall在Edwards空军基地驾驶X-62AVISTA升空注意,在一小时的飞行中,所有飞行动作都由AI自主完成!Kendall表示——在过去的几十年中,我们一直在思考自主空对空作战的无限潜力,但它始终显得遥不可及。然而如今,
