改写后的标题:字节推出Vi-PRoM视觉预训练方案,提升机器人操作成功率和效果
近年来,大规模真实世界数据的视觉预训练取得了显着的进展,在基于像素观察的机器人学习中显示出巨大的潜力。然而,这些研究在预训练数据、方法和模型方面存在差异。因此,哪种类型的数据、预训练方法和模型可以更好地辅助机器人操控仍然是一个未决的问题
基于此,ByteDance Research 团队的研究者从预训练数据集、模型架构和训练方法三个基本角度全面研究了视觉预训练策略对机器人操作任务的影响,提供了一些有利于机器人学习的重要实验结果。此外,他们提出了一种名为 Vi-PRoM 的机器人操作视觉预训练方案,它结合了自监督学习和监督学习。 其中前者采用对比学习从大规模未标记的数据中获取潜在模式,而后者旨在学习视觉语义和时序动态变化。在各种仿真环境和真实机器人中进行的大量机器人操作实验证明了该方案的优越性。
- 论文地址:https://arxiv.org/pdf/2308.03620.pdf
- 项目地址:https://explore-pretrain-robot.github.io/
基准研究
预训练数据
EgoNet比ImageNet更强大。通过对比学习方法在不同的数据集(即ImageNet和EgoNet)上预训练视觉编码器,并观察它们在机器人操作任务中的表现。从下表1中可以看到,在EgoNet上预训练的模型在机器人操作任务上取得了更好的性能。显然,机器人在操作任务方面更倾向于视频中包含的互动知识和时序关系。此外,EgoNet中以自我为中心的自然图像具有更多关于世界的全局背景,这意味着可以学习更丰富的视觉特征
模型结构
ResNet-50 表现更好。从下表 2 中可以看出 ResNet-50 和 ResNet-101 在机器人操作任务上的表现优于 ResNet-34。此外,随着模型从 ResNet-50 增加到 ResNet-101,性能并没有提高。
预训练方法
根据原文的意思,需要重写的内容是:“预训练方法首选对比学习。如下表3 所示,MoCo-v3 在ImageNet 和EgoNet 数据集上均优于MAE,这证明了对比学习与掩模图像建模相比更有效。此外,通过对比学习获得的视觉语义对于机器人操作来说比通过掩模图像建模学习的结构信息更重要。” 重写后的内容: 对比学习是首选的预训练方法。从表3中可以看出,MoCo-v3在ImageNet和EgoNet数据集上都优于MAE,这表明对比学习比掩模图像建模更有效。此外,对比学习所获得的视觉语义对于机器人操作来说比掩模图像建模所学习的结构信息更重要
算法介绍
基于上述探索,该研究提出了一种针对机器人操作的视觉预训练方案(Vi-PRoM)。该方案通过在EgoNet数据集上对ResNet-50进行预训练,来提取机器人操作的全面视觉表示。具体而言,首先采用对比学习的方式,通过自我监督从EgoNet数据集中获取人与物体的交互模式。然后,提出了两个额外的学习目标,即视觉语义预测和时序动态预测,以进一步丰富编码器的表示。下图展示了Vi-PRoM的基本流程。值得注意的是,该研究不需要手动标注标签来学习视觉语义和时序动态
实验结果
该研究工作在两种仿真环境 (Franka Kitchen 和 MetaWorld) 上进行了广泛的实验。实验结果表明所提出的预训练方案在机器人操作上优于以前最先进的方法。消融实验结果如下表所示,可以证明视觉语义学习和时序动态学习对于机器人操作的重要性。此外,当两个学习目标都不存在时,Vi-PRoM 的成功率会大大下降,证明了视觉语义学习和时序动态学习之间协作的有效性。
该工作还研究了 Vi-PRoM 的可扩展性。如下左图所示,在 Franka Kitchen 和 MetaWorld 模拟环境中,Vi-PRoM 的成功率随着演示数据规模的增加而稳步提高。在更大规模的专家演示数据集上进行训练后,Vi-PRoM 模型显示了其在机器人操作任务上的可扩展性。
由于 Vi-PRoM 强大的视觉表征能力,真实机器人能够成功地打开抽屉和柜门
Franka Kitchen 上的实验结果可以看出,Vi-PRoM 在五个任务上都比 R3M 具有更高的成功率和更高的动作完成度。
R3M:
Vi-PRoM:
在 MetaWorld 上,由于 Vi-PRoM 的视觉表示学习了良好的语义和动态特征,它可以更好地用于动作预测,因此相比 R3M,Vi-PRoM 需要更少的步骤来完成操作。
R3M:
Vi-PRoM:
以上是改写后的标题:字节推出Vi-PRoM视觉预训练方案,提升机器人操作成功率和效果的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

0.这篇文章干了啥?提出了DepthFM:一个多功能且快速的最先进的生成式单目深度估计模型。除了传统的深度估计任务外,DepthFM还展示了在深度修复等下游任务中的最先进能力。DepthFM效率高,可以在少数推理步骤内合成深度图。下面一起来阅读一下这项工作~1.论文信息标题:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

想象一下,一个人工智能模型,不仅拥有超越传统计算的能力,还能以更低的成本实现更高效的性能。这不是科幻,DeepSeek-V2[1],全球最强开源MoE模型来了。DeepSeek-V2是一个强大的专家混合(MoE)语言模型,具有训练经济、推理高效的特点。它由236B个参数组成,其中21B个参数用于激活每个标记。与DeepSeek67B相比,DeepSeek-V2性能更强,同时节省了42.5%的训练成本,减少了93.3%的KV缓存,最大生成吞吐量提高到5.76倍。DeepSeek是一家探索通用人工智

AI,的确正在改变数学。最近,一直十分关注这个议题的陶哲轩,转发了最近一期的《美国数学学会通报》(BulletinoftheAmericanMathematicalSociety)。围绕「机器会改变数学吗?」这个话题,众多数学家发表了自己的观点,全程火花四射,内容硬核,精彩纷呈。作者阵容强大,包括菲尔兹奖得主AkshayVenkatesh、华裔数学家郑乐隽、纽大计算机科学家ErnestDavis等多位业界知名学者。AI的世界已经发生了天翻地覆的变化,要知道,其中很多文章是在一年前提交的,而在这一

波士顿动力Atlas,正式进入电动机器人时代!昨天,液压Atlas刚刚「含泪」退出历史舞台,今天波士顿动力就宣布:电动Atlas上岗。看来,在商用人形机器人领域,波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后,短短十几小时内,就已经有一百多万观看。旧人离去,新角色登场,这是历史的必然。毫无疑问,今年是人形机器人的爆发年。网友锐评:机器人的进步,让今年看起来像人类的开幕式动作、自由度远超人类,但这真不是恐怖片?视频一开始,Atlas平静地躺在地上,看起来应该是仰面朝天。接下来,让人惊掉下巴

本月初,来自MIT等机构的研究者提出了一种非常有潜力的MLP替代方法——KAN。KAN在准确性和可解释性方面表现优于MLP。而且它能以非常少的参数量胜过以更大参数量运行的MLP。比如,作者表示,他们用KAN以更小的网络和更高的自动化程度重现了DeepMind的结果。具体来说,DeepMind的MLP有大约300,000个参数,而KAN只有约200个参数。KAN与MLP一样具有强大的数学基础,MLP基于通用逼近定理,而KAN基于Kolmogorov-Arnold表示定理。如下图所示,KAN在边上具

哭死啊,全球狂炼大模型,一互联网的数据不够用,根本不够用。训练模型搞得跟《饥饿游戏》似的,全球AI研究者,都在苦恼怎么才能喂饱这群数据大胃王。尤其在多模态任务中,这一问题尤为突出。一筹莫展之际,来自人大系的初创团队,用自家的新模型,率先在国内把“模型生成数据自己喂自己”变成了现实。而且还是理解侧和生成侧双管齐下,两侧都能生成高质量、多模态的新数据,对模型本身进行数据反哺。模型是啥?中关村论坛上刚刚露面的多模态大模型Awaker1.0。团队是谁?智子引擎。由人大高瓴人工智能学院博士生高一钊创立,高

什么?疯狂动物城被国产AI搬进现实了?与视频一同曝光的,是一款名为「可灵」全新国产视频生成大模型。Sora利用了相似的技术路线,结合多项自研技术创新,生产的视频不仅运动幅度大且合理,还能模拟物理世界特性,具备强大的概念组合能力和想象力。数据上看,可灵支持生成长达2分钟的30fps的超长视频,分辨率高达1080p,且支持多种宽高比。另外再划个重点,可灵不是实验室放出的Demo或者视频结果演示,而是短视频领域头部玩家快手推出的产品级应用。而且主打一个务实,不开空头支票、发布即上线,可灵大模型已在快影

特斯拉机器人Optimus最新视频出炉,已经可以在厂子里打工了。正常速度下,它分拣电池(特斯拉的4680电池)是这样的:官方还放出了20倍速下的样子——在小小的“工位”上,拣啊拣啊拣:这次放出的视频亮点之一在于Optimus在厂子里完成这项工作,是完全自主的,全程没有人为的干预。并且在Optimus的视角之下,它还可以把放歪了的电池重新捡起来放置,主打一个自动纠错:对于Optimus的手,英伟达科学家JimFan给出了高度的评价:Optimus的手是全球五指机器人里最灵巧的之一。它的手不仅有触觉
