字节AI Lab核心技术赢得Habitat Challenge 2022主动导航冠军,该技术将传统方法与模仿学习相结合。
物体目标导航 (Object Navigation) 是智能机器人的基本任务之一。在此任务中,智能机器人在一个未知的新环境中主动探索并找到人指定的某类物体。物体目标导航任务面向未来家庭服务机器人的应用需求,当人们需要机器人完成某些任务时,例如拿一杯水,机器人需要先寻找并移动到水杯的位置,进而帮人们取到水杯。
Habitat Challenge 挑战赛由 Meta AI 等机构联合举办,是物体目标导航领域的知名赛事之一,截至 2022 今年已连续举办 4 届,本次比赛共有 54 支参赛队参加。在比赛中,字节跳动 AI Lab-Research 团队的研究者针对现有方法的不足,提出了一种全新的物体目标导航框架。该框架巧妙地将模仿学习与传统方法结合,从一众方法中脱颖而出获得冠军。在关键指标 SPL 中大幅度超过了第二名及其他参赛队伍的结果。历史上该赛事的冠军队伍一般是 CMU、UC Berkerly、Facebook 等知名研究机构。
Test-Standard 榜单
Test-Challenge 榜单
Habitat Challenge 比赛官网:https://aihabitat.org/challenge/2022/
栖息地挑战赛排行榜:https://eval.ai/web/challenges/challenge-page/1615/leaderboard
1. 研究动机
目前的物体目标导航方法可以大致分为端到端的方法和基于地图的方法两大类。端到端的方法提取输入的传感器数据的特征,再送入一个深度学习模型中得到 action,此类方法一般基于强化学习或模仿学习(如图1Map-less methods);基于地图的方法一般会构建显式或隐式地图,然后通过强化学习等方法在地图上选取一个目标点,最后规划路径并得到 action(如图1Map-based method)。
图1端到端的方法(上)和基于地图的方法(下)流程示意图
在经过大量实验对比两类方法后,研究者们发现这两类方法各有优劣:端到端的方法不需要构建环境的地图,因此更加简洁,且不同场景的泛化能力更强。但由于网络需要学习编码环境的空间信息,依赖大量的训练数据,且难以同时学习一些简单的行为,比如在目标物体附近停下。而基于地图的方法使用栅格来存储特征或语义,具有显式空间信息,因此这类行为的学习门槛较低。但它非常依赖准确的定位结果,而且在一些如楼梯等环境中,需要人工设计感知和路径规划策略。
基于上述结论,字节跳动 AI Lab-Research 团队的研究者们希望将两类方法的优势结合起来。然而这两类方法的算法流程差异很大,难以直接组合;此外也很难设计出一种策略直接融合两种方法的输出。因此研究者设计了一种简单但有效的策略,使两类方法根据机器人的状态交替进行主动探索和物体搜索,从而将各自的优势最大程度地发挥出来。
2. 竞赛方法
算法主要有两个分支组成:基于概率地图的分支和端到端的分支。算法的输入是第一视角的 RGB-D 图像和机器人位姿,以及需要寻找的目标物体类别,输出是下一步动作 (action)。首先对 RGB 图像进行实例分割,并将其与其他原始输入数据一起传给两个分支。两个分支分别输出各自的 action,并由一个切换策略决定最终输出的 action。
图2 算法流程示意图
基于概率地图的分支
基于概率地图的分支借鉴了 Semantic linking map[2] 的思想,对作者原来发表在 IROS 机器人顶会的论文[3]的方法进行了简化。该分支根据输入的实例分割结果、深度图和机器人位姿,一方面构建 2D 语义地图;另一方面基于预先学习的物体间关联概率,对一张概率地图进行更新。
概率地图的更新方式包括以下几种:当检测到目标物体但没有足够把握时(置信概率 confidence score 低于阈值),此时应该继续靠近观察,因此概率地图上相应区域的概率值应该提高(如图 3 上方所示);同理,如果检测到和目标物体有关联的物体(例如桌子和椅子放在一起的概率比较高),则相应区域的概率值也会提高(如图 3 下方所示)。算法通过选择概率最高的区域作为目标点,鼓励机器人靠近潜在目标物体以及关联物体进一步观察,直到找到置信概率高于阈值的目标物体。
图3 概率地图更新方式示意图
端到端的分支
端到端分支的输入包括 RGB-D 图像、实例分割结果、机器人位姿,以及目标物体类别,并直接输出 action。端到端分支的主要作用是引导机器人像人类一样寻找物体,因此采用了 Habitat-Web[4] 方法的模型和训练流程。该方法基于模仿学习,通过在训练集中收集人类寻找物体的示例样本训练网络。
切换策略
切换策略主要根据概率地图和路径规划的结果,在概率地图分支和端到端分支输出的两个 action 中选择一个作为最终输出。当概率地图中没有概率大于阈值的栅格,机器人需要对环境进行探索;当地图上无法规划出可行路径时,此时机器人可能处于一些特殊环境(如楼梯),这两种情况下会采用端到端分支,使机器人具备足够的环境适应能力。其他情况则选择概率地图分支,充分发挥其在寻找目标物体方面的优势。
该切换策略的效果如视频所示,机器人一般情况下利用端到端分支高效地探索环境,一旦发现了可能的目标物体或关联物体,则切换到概率地图分支靠近观察,如果目标物体的置信概率大于阈值,则在目标物体处停下;否则该区域的概率值会不断降低,直到没有概率大于阈值的栅格,机器人重新切换回端到端继续探索。
从视频中可以看出,这种方法兼具了端到端方法和基于地图的方法的优势。两个分支各司其职,端到端方法主要负责探索环境;概率地图分支负责靠近感兴趣区域进行观察。因此该方法不仅能够在复杂场景探索(如楼梯),还降低了端到端分支的训练要求。
3. 总结
针对物体主动目标导航任务,字节跳动 AI Lab-Research 团队提出了一种结合经典概率地图与现代模仿学习的框架。该框架是对传统方法与端到端方法相结合的一次成功的尝试。在 Habitat 竞赛中,字节跳动 AI Lab-Research 团队提出的方法大幅度超出了第二名及其他参赛队伍的结果,证明了算法的先进性。通过将传统方法引入目前主流的 Embodied AI 端到端方法,来进一步弥补端到端方法的一些不足,从而使得智能机器人在帮助人、服务人的道路上更进一步。
近期,字节跳动 AI Lab-Research 团队在机器人领域的研究还被 CoRL、IROS、ICRA 等机器人顶会收录,其中包括物体位姿估计、物体抓取、目标导航、自动装配、人机交互等机器人核心任务。
【CoRL 2022】利用语义原语生成类别级形状和姿势估计
- 论文地址:https://arxiv.org/abs/2210.01112
【IROS 2022】使用实例编码变压器生成3D零件装配
- 论文地址:https://arxiv.org/abs/2207.01779
【IROS 2022】通过距离预测导航到看不见的环境中的物体
- 论文地址:https://arxiv.org/abs/2202.03735
【EMNLP 2022】迈向统一参考表达式生成和理解
- 论文地址:https://arxiv.org/pdf/2210.13076
【ICRA 2022】通过优先内存重置学习不同大小材料的设计和构建
- 论文地址:https://arxiv.org/abs/2204.05509
【IROS 2021】同步语义和碰撞学习用于六自由度抓取姿势估计
- 论文地址:https://arxiv.org/abs/2108.02425
【IROS 2021】学习在没有蓝图的情况下设计和建造桥梁
- 论文地址:https://arxiv.org/abs/2108.02439
4. 参考文献
[1] Yadav、Karmesh 等人。 “Habitat-Matterport 3D 语义数据集。” arXiv 预印本 arXiv:2210.05633 (2022)。
[2] Zeng、Zhen、Adrian Röfer 和 Odest Chadwicke Jenkins。 “用于主动视觉对象搜索的语义链接图。” 2020 年 IEEE 机器人与自动化国际会议 (ICRA)。 IEEE,2020。
[3]朱敏照,赵冰雷,孔涛。 “通过距离预测导航到看不见的环境中的对象。” arXiv 预印本 arXiv:2202.03735 (2022)。
[4] Ramrakhya,Ram 等人。 “栖息地网络:从大规模的人类演示中学习具体的对象搜索策略。” IEEE/CVF 计算机视觉和模式识别会议论文集。 2022 年。
5. 关于我们
字节跳动 AI Lab NLP&Research 专注于人工智能领域的前沿技术研究,涵盖了自然语言处理、机器人等多个技术研究领域,同时致力于将研究成果落地,为公司现有的产品和业务提供核心技术支持和服务。团队技术能力正通过火山引擎对外开放,赋能 AI 创新。
字节跳动 AI-Lab NLP&Research 联系方式
- 招聘咨询:fankaijing@bytedance.com
- 学术合作:luomanping@bytedance.com
以上是字节AI Lab核心技术赢得Habitat Challenge 2022主动导航冠军,该技术将传统方法与模仿学习相结合。的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

人形机器人Ameca升级第二代了!最近,在世界移动通信大会MWC2024上,世界上最先进机器人Ameca又现身了。会场周围,Ameca引来一大波观众。得到GPT-4加持后,Ameca能够对各种问题做出实时反应。「来一段舞蹈」。当被问及是否有情感时,Ameca用一系列的面部表情做出回应,看起来非常逼真。就在前几天,Ameca背后的英国机器人公司EngineeredArts刚刚演示了团队最新的开发成果。视频中,机器人Ameca具备了视觉能力,能看到并描述房间整个情况、描述具体物体。最厉害的是,她还能

在工业自动化技术领域,最近有两个热点很难被忽视:人工智能(AI)和英伟达(Nvidia)。不要改变原内容的意思,微调内容,重写内容,不要续写:“不仅如此,这两者密切相关,因为英伟达在不仅仅局限于其最开始的图形处理单元(GPU),正在将其GPU技术扩展到数字孪生领域,同时紧密连接着新兴的AI技术。”最近,英伟达与众多工业企业达成了合作,包括领先的工业自动化企业,如Aveva、罗克韦尔自动化、西门子和施耐德电气,以及泰瑞达机器人及其MiR和优傲机器人公司。Recently,Nvidiahascoll

这周,由OpenAI、微软、贝佐斯和英伟达投资的机器人公司FigureAI宣布获得接近7亿美元的融资,计划在未来一年内研发出可独立行走的人形机器人。而特斯拉的擎天柱也屡屡传出好消息。没人怀疑,今年会是人形机器人爆发的一年。一家位于加拿大的机器人公司SanctuaryAI最近发布了一款全新的人形机器人Phoenix。官方号称它能以和人类一样的速率自主完成很多工作。世界上第一台能以人类速度自主完成任务的机器人Pheonix可以轻轻地抓取、移动并优雅地将每个对象放置在它的左右两侧。它能够自主识别物体的

机器之能报道编辑:吴昕国内版的人形机器人+大模型组队,首次完成叠衣服这类复杂柔性材料的操作任务。随着融合了OpenAI多模态大模型的Figure01揭开神秘面纱,国内同行的相关进展一直备受关注。就在昨天,国内"人形机器人第一股"优必选发布了人形机器人WalkerS深入融合百度文心大模型后的首个Demo,展示了一些有趣的新功能。现在,得到百度文心大模型能力加持的WalkerS是这个样子的。和Figure01一样,WalkerS没有走动,而是站在桌子后面完成一系列任务。它可以听从人类的命令,折叠衣物

以下10款类人机器人正在塑造我们的未来:1、ASIMO:ASIMO由Honda开发,是最知名的人形机器人之一。ASIMO高4英尺,重119磅,配备先进的传感器和人工智能功能,使其能够在复杂的环境中导航并与人类互动。ASIMO的多功能性使其适用于各种任务,从帮助残疾人到在活动中进行演示。2、Pepper:由SoftbankRobotics创建,Pepper旨在成为人类的社交伴侣。凭借其富有表现力的面孔和识别情绪的能力,Pepper可以参与对话、在零售环境中提供帮助,甚至提供教育支持。Pepper的

近几年最受消费者欢迎的智能家电,扫拖机器人可谓是其中之一。它所带来的操作便利性,甚至是无需操作,让懒人们释放了双手,让消费者能够从日常的家务中「解放」出来,也能拿更多的时间花在自己喜欢的事情上,变相提高了生活品质。借着这股热潮,市面上几乎所有的家电产品品牌都在做自己的扫拖机器人,一时间使得整个扫拖机器人市场热闹非凡。但市场的快速拓张必然会带来一个隐患:很多厂商会采用机海战术的方式快速占领更多的市场份额,从而导致很多新品并没有什么升级点,说它是“套娃”机型也不为过。不过,并不是所有的扫拖机器人都是

一眨眼的功夫,机器人都已经学会变魔术了?只见它先是拿起桌上的水勺,向观众证明了里面什么也没有……然后,它又把手中鸡蛋似的物体放了进去,然后把水勺放回桌子上,开始“施法”……就在它把水勺再次拿起的时候,奇迹发生了。原先放进去的鸡蛋不翼而飞,跳出的东西变成了一个篮球……再来看一遍连贯动作:△此动图为二倍速一套动作下来如行云流水,只有把视频用0.5倍速反复观看,才终于发现了其中的端倪:如果手速再快一些,大概真的就可以瞒天过海了。有网友感叹,机器人变魔术的水平比自己还要高:为我们表演这段魔术的,是Mag

创下有史以来销售速度最快的任天堂游戏《塞尔达传说:王国之泪》(TheLegendofZelda:TearsoftheKingdom)不仅因为左纳乌科技带来各种“塞尔达创作家”社群内容,同时也成为美国马里兰大学(UniversityofMaryland;UMD)全新工程学的一门课程。重写:《塞尔达传说:王国之泪》是任天堂创纪录销售最快的游戏之一。不仅仅因为左纳乌科技带来了丰富的社群内容,还成为了美国马里兰大学全新工程学课程的一部分今年秋季,马里兰大学的RyanD.Sochol副教授开设了一门名为《
