目录
数据虽多,但我用不上啊
视频预训练模型——VPT
首页 科技周边 人工智能 惊呆了!训练7万小时后,OpenAI的模型竟然学会在「我的世界」里刨木头

惊呆了!训练7万小时后,OpenAI的模型竟然学会在「我的世界」里刨木头

Apr 09, 2023 pm 05:01 PM
ai 模型

最近,似乎早已把GPT抛在脑后的OpenAI又整了个新活。

在经过海量无标注视频以及一点点标注过的数据训练之后,AI终于学会了在「我的世界」(Minecraft)里制作钻石镐。

而整套流程需要一个骨灰级玩家至少20分钟的时间才能完成,总计要操作24000次。

图片

这个东西吧,看似简单,但对AI来说却非常困难。

7岁小孩看10分钟就能学会

惊呆了!训练7万小时后,OpenAI的模型竟然学会在「我的世界」里刨木头

对于最简单的木镐,让人类玩家从头开始学过程并不太难。

一个死宅不到3分钟用单个视频就能教会下一个。

图片

演示视频全长2分52秒

然而,钻石镐的制作就复杂多了。

不过即便如此,一个7岁小孩也只需看上十分钟的演示视频,就能学会了。

图片

这个任务的难点,主要在如何挖到钻石矿。

过程大概可以概括为12个步骤:先徒手刨下像素块「木头」,再由原木合成木块,木块制作木棍,木棍制作工坊装具台,工台造木镐,木镐敲石块,石块加木棍做石镐,石镐打造炼炉,炼炉加工铁矿,铁矿熔铸铁锭,铁锭制作铁镐,铁镐去挖钻石。

图片

现在,压力来到了AI这边。

正巧,CMU、OpenAI、DeepMind、Microsoft Research等机构自2019年起,就搞了一个相关的比赛——MineRL。

参赛选手需要自研出一个「自主从零开始打造工具、自动寻找并挖掘钻石矿」的人工智能体,而获胜条件也很简单—最快者胜出。

结果如何?

在首届MineRL比赛结束之后,「7岁小孩看10分钟视频就学会,AI用了8百万步还搞不定」,可是上了Nature杂志的。

数据虽多,但我用不上啊

「我的世界」作为沙盒建筑游戏,其玩家策略、游戏内虚拟环境的高开放性,特别适合作为各种AI模型学习、决策能力的测试场和试金石。

而且作为一款「国民级」的游戏,想在网上找到和「我的世界」相关的视频简直易如反掌。

然而,不管是搭建教程,还是炫耀自己的作品,从某种程度上来说都只是在画面上呈现出的结果。

图片

换句话说,看视频的人只能知道up主干了个啥,干的怎么样,但没法知道是怎么干的。

更具体点,电脑屏幕上呈现出来的只是结果,而操作步骤是up主在键盘上的不停点击,以及鼠标的不停移动,这部分是看不到的。

甚至,连这个过程都是经过剪辑的,人看了估计都学不会,更别说AI了。

雪上加霜的是,不少玩家抱怨在游戏里刨木头的枯燥度,太像做作业完成任务。结果一波更新之后,有不少工具可以直接白捡……这下,连数据都不好找了。

而OpenAI想要让AI学会玩儿「我的世界」,就必须找到一个办法,能够让这些海量的未标注的视频数据派上用场。

视频预训练模型——VPT

于是,VPT应运而出。

图片惊呆了!训练7万小时后,OpenAI的模型竟然学会在「我的世界」里刨木头

论文地址:https://cdn.openai.com/vpt/Paper.pdf

这东西说新也新,但是却并不复杂,是一种半监督式的模仿学习方法。

首先,收集一波数据标注外包们玩游戏的数据,其中包含视频和键鼠操作的记录。

图片

VPT方法概述

然后,研究人员用这些数据搞了个逆动力学模型(inverse dynamics model,IDM),可以推测出视频中每一步进行的时候,键鼠都是怎么动的。

这样一来,整个任务就变得简单多了,只需要比原来少很多的数据就可以实现目的。

用一小撮外包数据搞完IDM之后,就可以用IDM接下来标注更大规模的无标记数据集了。

图片

基础模型训练数据对微调的影响

在训练了70000个小时以后,OpenAI的行为克隆模型就能实现各种别的模型做不到的工作了。

模型学会了怎么砍树收集木头,怎么用木头做木条,怎么用木条做桌子。而这一套事儿需要一个比较熟练的玩家操作小50秒的时间。

图片

除了做桌子,模型还能游泳,打猎,吃东西。

甚至还有「跑跳搭」的骚操作,也就是起跳的时候脚下放个砖块或者木块,跳着跳着就能搭个柱子。这属于是骨灰级玩家的必修课了。

图片惊呆了!训练7万小时后,OpenAI的模型竟然学会在「我的世界」里刨木头

制作桌子(0 shot)

图片

打猎(0 shot)

图片

「跑跳搭」简陋版(0 shot)

而为了让模型能完成一些更精细的任务,一般还会把数据集微调成更小的规模,区分细小的方向。

OpenAI做了一项研究,展示了用VPT训练过的模型,再经过了微调之后,有多适应下游的数据集。

研究人员邀请人玩儿了10分钟的「我的世界」,用基础材料搭了个房子。他们希望通过这种方式可以加强模型执行一些游戏初期的任务的能力,比如说搭一个工作台。

当对该数据集进行完微调以后,研究人员不仅发现模型在执行初期任务时更加得心应手,还发现模型自个儿研究明白了怎么分别做出一张木制的工作台,和一张石制的工具台。

有时候,研究人员还能看到模型自己搭建简陋的避难所,搜查村子,还有抢箱子。

图片

制作一把石镐的全过程(下方标注的时间是一名熟练玩家执行同样的任务的耗时)

图片

制作石镐

然后我们来看看,OpenAI的专家们是怎么进行的微调。

他们使用的办法是,强化学习(RL)。

大多数RL方法通过随机探索先验来解决这些挑战,例如模型通常被激励通过熵奖励随机行动。VPT 模型应该是RL更好的先验模型,因为模拟人类行为可能比采取随机行动更有帮助。

研究人员将模型设置为收集钻石镐这类艰巨任务,这是「我的世界」中前所未有的功能,因为执行整个任务时使用本机人机界面时会变得更加困难。

制作钻石镐需要一系列漫长而复杂的子任务。为了使这项任务易于处理,研究人员为序列中的每个项目奖励智能体。

图片

他们发现,从随机初始化(标准RL方法)训练的RL策略几乎没有获得任何奖励,从不学习收集日志,而且很少收集木棍。

与之形成鲜明对比的是,VPT模型的微调不仅可以学习如何制作钻石镐,而且在收集所有物品方面的成功率,甚至达到人类水平。

而这是第一次有人展示能够在「我的世界」中制作钻石工具的计算机模型。

以上是惊呆了!训练7万小时后,OpenAI的模型竟然学会在「我的世界」里刨木头的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它们
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

Debian邮件服务器防火墙配置技巧 Debian邮件服务器防火墙配置技巧 Apr 13, 2025 am 11:42 AM

配置Debian邮件服务器的防火墙是确保服务器安全性的重要步骤。以下是几种常用的防火墙配置方法,包括iptables和firewalld的使用。使用iptables配置防火墙安装iptables(如果尚未安装):sudoapt-getupdatesudoapt-getinstalliptables查看当前iptables规则:sudoiptables-L配置

debian readdir如何与其他工具集成 debian readdir如何与其他工具集成 Apr 13, 2025 am 09:42 AM

Debian系统中的readdir函数是用于读取目录内容的系统调用,常用于C语言编程。本文将介绍如何将readdir与其他工具集成,以增强其功能。方法一:C语言程序与管道结合首先,编写一个C程序调用readdir函数并输出结果:#include#include#includeintmain(intargc,char*argv[]){DIR*dir;structdirent*entry;if(argc!=2){

debian readdir如何实现文件排序 debian readdir如何实现文件排序 Apr 13, 2025 am 09:06 AM

在Debian系统中,readdir函数用于读取目录内容,但其返回的顺序并非预先定义的。要对目录中的文件进行排序,需要先读取所有文件,再利用qsort函数进行排序。以下代码演示了如何在Debian系统中使用readdir和qsort对目录文件进行排序:#include#include#include#include//自定义比较函数,用于qsortintcompare(constvoid*a,constvoid*b){returnstrcmp(*(

Debian邮件服务器SSL证书安装方法 Debian邮件服务器SSL证书安装方法 Apr 13, 2025 am 11:39 AM

在Debian邮件服务器上安装SSL证书的步骤如下:1.安装OpenSSL工具包首先,确保你的系统上已经安装了OpenSSL工具包。如果没有安装,可以使用以下命令进行安装:sudoapt-getupdatesudoapt-getinstallopenssl2.生成私钥和证书请求接下来,使用OpenSSL生成一个2048位的RSA私钥和一个证书请求(CSR):openss

Debian OpenSSL如何进行数字签名验证 Debian OpenSSL如何进行数字签名验证 Apr 13, 2025 am 11:09 AM

在Debian系统上使用OpenSSL进行数字签名验证,可以按照以下步骤操作:准备工作安装OpenSSL:确保你的Debian系统已经安装了OpenSSL。如果没有安装,可以使用以下命令进行安装:sudoaptupdatesudoaptinstallopenssl获取公钥:数字签名验证需要使用签名者的公钥。通常,公钥会以文件的形式提供,例如public_key.pe

Debian OpenSSL如何防止中间人攻击 Debian OpenSSL如何防止中间人攻击 Apr 13, 2025 am 10:30 AM

在Debian系统中,OpenSSL是一个重要的库,用于加密、解密和证书管理。为了防止中间人攻击(MITM),可以采取以下措施:使用HTTPS:确保所有网络请求使用HTTPS协议,而不是HTTP。HTTPS使用TLS(传输层安全协议)加密通信数据,确保数据在传输过程中不会被窃取或篡改。验证服务器证书:在客户端手动验证服务器证书,确保其可信。可以通过URLSession的委托方法来手动验证服务器

Debian Hadoop日志管理怎么做 Debian Hadoop日志管理怎么做 Apr 13, 2025 am 10:45 AM

在Debian上管理Hadoop日志,可以遵循以下步骤和最佳实践:日志聚合启用日志聚合:在yarn-site.xml文件中设置yarn.log-aggregation-enable为true,以启用日志聚合功能。配置日志保留策略:设置yarn.log-aggregation.retain-seconds来定义日志的保留时间,例如保留172800秒(2天)。指定日志存储路径:通过yarn.n

centos关机命令行 centos关机命令行 Apr 14, 2025 pm 09:12 PM

CentOS 关机命令为 shutdown,语法为 shutdown [选项] 时间 [信息]。选项包括:-h 立即停止系统;-P 关机后关电源;-r 重新启动;-t 等待时间。时间可指定为立即 (now)、分钟数 ( minutes) 或特定时间 (hh:mm)。可添加信息在系统消息中显示。

See all articles