目录
问题设置
从不同的经验中学习
分类性能
结论和未来工作展望
首页 科技周边 人工智能 耗时两年谷歌用强化学习打造23个机器人帮助垃圾分类

耗时两年谷歌用强化学习打造23个机器人帮助垃圾分类

May 09, 2023 pm 03:01 PM
ai 垃圾分类

强化学习(RL)可以让机器人通过反复试错进行交互,进而学会复杂行为,并随着时间的推移变得越来越好。之前谷歌的一些工作探索了 RL 如何使机器人掌握复杂的技能,例如抓取、多任务学习,甚至是打乒乓球。虽然机器人强化学习已经取得了长足进步,但我们仍然没有在日常环境中看到有强化学习加持的机器人。因为现实世界是复杂多样的,并且随着时间的推移不断变化,这为机器人系统带来巨大挑战。然而,强化学习应该是应对这些挑战的优秀工具:通过不断练习、不断进步和在工作中学习,机器人应该能够适应不断变化的世界。

在谷歌的论文《 Deep RL at Scale: Sorting Waste in Office Buildings with a Fleet of Mobile Manipulators 》中,研究人员探讨了如何通过最新的大规模实验解决这个问题,他们在两年内部署了一支由 23 个支持 RL 的机器人组成的群组,用于在谷歌办公楼中进行垃圾分类和回收。使用的机器人系统将来自真实世界数据的可扩展深度强化学习与来自模拟训练的引导和辅助对象感知输入相结合,以提高泛化能力,同时保留端到端训练优势,通过对 240 个垃圾站进行 4800 次评估试验来验证。

耗时两年,谷歌用强化学习打造23个机器人帮助垃圾分类

论文地址:https://rl-at-scale.github.io/assets/rl_at_scale.pdf

问题设置

如果人们没有正确分类垃圾,成批的可回收物品可能会受到污染,堆肥可能会被不当丢弃到垃圾填埋场。在谷歌的实验中,机器人在办公楼周围漫游,寻找 “垃圾站”(可回收垃圾箱、堆肥垃圾箱和其它垃圾箱)。机器人的任务是到达每个垃圾站进行垃圾分类,在不同垃圾箱之间运输物品,以便将所有可回收物品(罐头、瓶子)放入可回收垃圾箱,将所有可堆肥物品(纸板容器、纸杯)放入堆肥垃圾箱,其他所有东西都放在其它垃圾箱里。

其实这项任务并不像看起来那么容易。仅仅是捡起人们扔进垃圾箱的不同物品的子任务,就已经是一个巨大的挑战。机器人还必须为每个物体识别合适的垃圾箱,并尽可能快速有效地对它们进行分类。在现实世界中,机器人会遇到各种独特的情况,比如以下真实办公楼的例子:

从不同的经验中学习

在工作中不断学习是有帮助的,但在达到这一点之前,需要用一套基本的技能来引导机器人。为此,谷歌使用了四种经验来源:(1)简单的手工设计策略,成功率很低,但有助于提供初步经验;(2)模拟训练框架,使用模拟 - 真实的迁移来提供一些初步的垃圾分类策略;(3)“robot classrooms”,机器人使用有代表性的垃圾站不断练习(4)真实的部署环境,机器人在有真实垃圾的办公楼里练习。

耗时两年,谷歌用强化学习打造23个机器人帮助垃圾分类

强化学习在该大规模应用中的示意图。使用脚本生成的数据引导策略的启动(左上图)。然后训练一个从仿真到实际的模型,在仿真环境中生成额外的数据(右上图)。在每个部署周期中,添加在 “robot classrooms” 中收集的数据(右下图)。在办公楼中部署和收集数据(左下图)。

这里使用的强化学习框架基于 QT-Opt,实验室环境下的不同垃圾的抓取以及一系列其他技能也是使用该框架。在仿真环境中从简单的脚本策略开始引导,应用强化学习,并使用基于 CycleGAN 的迁移方法,利用 RetinaGAN 使仿真图像看起来更加逼真。

到此就开始进入 “robot classrooms”。虽然实际的办公楼可以提供最真实的体验,但数据收集的吞吐量是有限的 —— 有些时间会有很多垃圾需要分类,有些时间则不会有那么多。机器人在 “robot classrooms” 中积累了大部分的经验。在下面展示的 “robot classrooms” 里,有 20 个机器人练习垃圾分类任务:

耗时两年,谷歌用强化学习打造23个机器人帮助垃圾分类

当这些机器人在 “robot classrooms” 接受训练时,其它机器人正在 3 座办公楼中的 30 个垃圾站上同时学习。

分类性能

最终,研究人员从 “robot classrooms” 收集了 54 万个试验数据,在实际部署环境收集了 32.5 万个试验数据。随着数据的不断增加,整个系统的性能得到了改善。研究者在 “robot classrooms” 中对最终系统进行了评估,以便进行受控比较,根据机器人在实际部署中看到的情况设置了场景。最终系统的平均准确率约为 84%,随着数据的增加,性能稳步提高。在现实世界中,研究人员记录了 2021 年至 2022 年实际部署的统计数据,发现系统可以按重量将垃圾桶中的污染物减少 40%至 50%。谷歌研究人员在论文提供了有关技术设计、各种设计决策的削弱研究以及实验的更详细统计数据的更深入见解。

结论和未来工作展望

实验结果表明,基于强化学习的系统可以使机器人在真实办公环境中处理实际任务。离线和在线数据的结合使得机器人能够适应真实世界中广泛变化的情况。同时,在更加受控的 “课堂” 环境中学习,包括在仿真环境和实际环境中,可以提供强大的启动机制,使得强化学习的 “飞轮” 开始转动,从而实现适应性。

虽然已经取得了重要成果,但还有很多工作需要完成:最终的强化学习策略并不总是成功的,需要更强大的模型来改善其性能,并将其扩展到更广泛的任务范围。除此之外,其它经验来源,包括来自其它任务、其它机器人,甚至是互联网视频,也可能会进一步补充从仿真和” 课堂 “中获得的启动经验。这些都是未来需要解决的问题。

以上是耗时两年谷歌用强化学习打造23个机器人帮助垃圾分类的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它们
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

Debian邮件服务器防火墙配置技巧 Debian邮件服务器防火墙配置技巧 Apr 13, 2025 am 11:42 AM

配置Debian邮件服务器的防火墙是确保服务器安全性的重要步骤。以下是几种常用的防火墙配置方法,包括iptables和firewalld的使用。使用iptables配置防火墙安装iptables(如果尚未安装):sudoapt-getupdatesudoapt-getinstalliptables查看当前iptables规则:sudoiptables-L配置

debian readdir如何与其他工具集成 debian readdir如何与其他工具集成 Apr 13, 2025 am 09:42 AM

Debian系统中的readdir函数是用于读取目录内容的系统调用,常用于C语言编程。本文将介绍如何将readdir与其他工具集成,以增强其功能。方法一:C语言程序与管道结合首先,编写一个C程序调用readdir函数并输出结果:#include#include#includeintmain(intargc,char*argv[]){DIR*dir;structdirent*entry;if(argc!=2){

debian readdir如何实现文件排序 debian readdir如何实现文件排序 Apr 13, 2025 am 09:06 AM

在Debian系统中,readdir函数用于读取目录内容,但其返回的顺序并非预先定义的。要对目录中的文件进行排序,需要先读取所有文件,再利用qsort函数进行排序。以下代码演示了如何在Debian系统中使用readdir和qsort对目录文件进行排序:#include#include#include#include//自定义比较函数,用于qsortintcompare(constvoid*a,constvoid*b){returnstrcmp(*(

Debian OpenSSL如何进行数字签名验证 Debian OpenSSL如何进行数字签名验证 Apr 13, 2025 am 11:09 AM

在Debian系统上使用OpenSSL进行数字签名验证,可以按照以下步骤操作:准备工作安装OpenSSL:确保你的Debian系统已经安装了OpenSSL。如果没有安装,可以使用以下命令进行安装:sudoaptupdatesudoaptinstallopenssl获取公钥:数字签名验证需要使用签名者的公钥。通常,公钥会以文件的形式提供,例如public_key.pe

Debian邮件服务器SSL证书安装方法 Debian邮件服务器SSL证书安装方法 Apr 13, 2025 am 11:39 AM

在Debian邮件服务器上安装SSL证书的步骤如下:1.安装OpenSSL工具包首先,确保你的系统上已经安装了OpenSSL工具包。如果没有安装,可以使用以下命令进行安装:sudoapt-getupdatesudoapt-getinstallopenssl2.生成私钥和证书请求接下来,使用OpenSSL生成一个2048位的RSA私钥和一个证书请求(CSR):openss

centos关机命令行 centos关机命令行 Apr 14, 2025 pm 09:12 PM

CentOS 关机命令为 shutdown,语法为 shutdown [选项] 时间 [信息]。选项包括:-h 立即停止系统;-P 关机后关电源;-r 重新启动;-t 等待时间。时间可指定为立即 (now)、分钟数 ( minutes) 或特定时间 (hh:mm)。可添加信息在系统消息中显示。

Debian OpenSSL如何防止中间人攻击 Debian OpenSSL如何防止中间人攻击 Apr 13, 2025 am 10:30 AM

在Debian系统中,OpenSSL是一个重要的库,用于加密、解密和证书管理。为了防止中间人攻击(MITM),可以采取以下措施:使用HTTPS:确保所有网络请求使用HTTPS协议,而不是HTTP。HTTPS使用TLS(传输层安全协议)加密通信数据,确保数据在传输过程中不会被窃取或篡改。验证服务器证书:在客户端手动验证服务器证书,确保其可信。可以通过URLSession的委托方法来手动验证服务器

Debian Hadoop日志管理怎么做 Debian Hadoop日志管理怎么做 Apr 13, 2025 am 10:45 AM

在Debian上管理Hadoop日志,可以遵循以下步骤和最佳实践:日志聚合启用日志聚合:在yarn-site.xml文件中设置yarn.log-aggregation-enable为true,以启用日志聚合功能。配置日志保留策略:设置yarn.log-aggregation.retain-seconds来定义日志的保留时间,例如保留172800秒(2天)。指定日志存储路径:通过yarn.n

See all articles