目錄
資料雖多,但我用不上啊
影片預訓練模型-VPT
首頁 科技週邊 人工智慧 驚呆了!訓練7萬小時後,OpenAI的模型竟然學會在「我的世界」刨木頭

驚呆了!訓練7萬小時後,OpenAI的模型竟然學會在「我的世界」刨木頭

Apr 09, 2023 pm 05:01 PM
ai 模型

最近,似乎早已把GPT拋在腦後的OpenAI又整了個新活。

在經過大量無標註影片以及一點點標註過的資料訓練之後,AI終於學會了在「我的世界」(Minecraft)裡製作鑽石鎬。

而整套流程需要一個骨灰級玩家至少20分鐘的時間才能完成,總計要操作24000次。

驚呆了!訓練7萬小時後,OpenAI的模型竟然學會在「我的世界」刨木頭

這個東西吧,看似簡單,但對AI來說卻非常困難。

7歲小孩看10分鐘就能學會

驚呆了!訓練7萬小時後,OpenAI的模型竟然學會在「我的世界」刨木頭

#對於最簡單的木鎬,讓人類玩家從頭開始學習過程並不太難。

一個死宅不到3分鐘用單一影片就能教會下一個。

驚呆了!訓練7萬小時後,OpenAI的模型竟然學會在「我的世界」刨木頭

示範影片全長2分52秒

#然而,鑽石鎬的製作就複雜多了。

不過即便如此,一個7歲小孩也只需看上十分鐘的演示視頻,就能學會了。

驚呆了!訓練7萬小時後,OpenAI的模型竟然學會在「我的世界」刨木頭

這個任務的困難點,主要在如何挖到鑽石礦。

過程大概可以概括為12個步驟:先徒手刨下像素塊「木頭」,再由原木合成木塊,木塊製作木棍,木棍製作工坊裝具台,工台造木鎬,木鎬敲石塊,石塊加木棍做石鎬,石鎬打造煉爐,煉爐加工鐵礦,鐵礦熔鑄鐵錠,鐵錠製作鐵鎬,鐵鎬去挖鑽石。

驚呆了!訓練7萬小時後,OpenAI的模型竟然學會在「我的世界」刨木頭

現在,壓力來到了AI這邊。

正巧,CMU、OpenAI、DeepMind、Microsoft Research等機構自2019年起,就搞了一個相關的比賽——MineRL。

參賽者需要自研出一個「自主從零開始打造工具、自動尋找並挖掘鑽石礦」的人工智慧體,而獲勝條件也很簡單—最快者勝出。

結果如何?

在首屆MineRL比賽結束之後,「7歲小孩看10分鐘影片就學會,AI用了8百萬步還搞不定」,可是上了Nature雜誌的。

資料雖多,但我用不上啊

「我的世界」作為沙盒建築遊戲,其玩家策略、遊戲內虛擬環境的高開放性,特別適合作為各種AI模型學習、決策能力的測試場和試金石。

而且作為一款「國民級」的遊戲,想在網路上找到和「我的世界」相關的影片簡直易如反掌。

然而,不管是搭建教程,還是炫耀自己的作品,從某種程度上來說都只是在畫面上呈現出的結果。

驚呆了!訓練7萬小時後,OpenAI的模型竟然學會在「我的世界」刨木頭

#

換句話說,看影片的人只能知道up主幹了個啥,幹的怎麼樣,但沒辦法知道是怎麼幹的。

更具體點,電腦螢幕上呈現出來的只是結果,而操作步驟是up主在鍵盤上的不停點擊,以及滑鼠的不停移動,這部分是看不到的。

甚至,連這個過程都是經過剪輯的,人看了估計都學不會,更別說AI了。

雪上加霜的是,不少玩家抱怨在遊戲裡刨木頭的枯燥度,太像做作業完成任務。結果一波更新之後,有不少工具可以直接白撿……這下,連數據都不好找了。

而OpenAI想要讓AI學會玩兒「我的世界」,就必須找到一個辦法,能夠讓這些海量的未標註的視頻數據派上用場。

影片預訓練模型-VPT

於是,VPT應運而出。

驚呆了!訓練7萬小時後,OpenAI的模型竟然學會在「我的世界」刨木頭驚呆了!訓練7萬小時後,OpenAI的模型竟然學會在「我的世界」刨木頭

論文網址:https://cdn.openai.com/vpt/Paper.pdf

#這東西說新也新,但是卻不複雜,是一種半監督式的模仿學習方法。

首先,收集一波資料標註外包們玩遊戲的數據,其中包含影片和鍵鼠操作的記錄。

驚呆了!訓練7萬小時後,OpenAI的模型竟然學會在「我的世界」刨木頭

VPT方法概述

#然後,研究人員用這些資料搞了一個逆動力學模型(inverse dynamics model,IDM),可以推測出影片中每一步進行的時候,鍵鼠都是怎麼動的。

這樣一來,整個任務就變得簡單多了,只需要比原來少很多的資料就可以實現目的。

用一小撮外包資料搞完IDM之後,就可以用IDM接下來標註更大規模的無標記資料集了。

驚呆了!訓練7萬小時後,OpenAI的模型竟然學會在「我的世界」刨木頭

基礎模型訓練資料對微調的影響

在訓練了70000小時以後,OpenAI的行為克隆模型就能實現各種別的模型都做不到的工作了。

模型學會了怎麼砍樹收集木頭,怎麼用木頭做木條,怎麼用木條做桌子。而這套事兒需要一個比較熟練的玩家操作小50秒的時間。

驚呆了!訓練7萬小時後,OpenAI的模型竟然學會在「我的世界」刨木頭

除了做桌子,模型還能游泳,打獵,吃東西。

甚至還有「跑跳搭」的騷操作,也就是起跳的時候腳下放個磚塊或木塊,跳著跳著就能搭個柱子。這屬於是骨灰級玩家的必修課了。

驚呆了!訓練7萬小時後,OpenAI的模型竟然學會在「我的世界」刨木頭驚呆了!訓練7萬小時後,OpenAI的模型竟然學會在「我的世界」刨木頭

製作桌子(0 shot)

驚呆了!訓練7萬小時後,OpenAI的模型竟然學會在「我的世界」刨木頭

#打獵(0 shot)

驚呆了!訓練7萬小時後,OpenAI的模型竟然學會在「我的世界」刨木頭

「跑跳搭」簡單版(0 shot)

而為了讓模型能完成一些更精細的任務,一般還會把資料集微調成更小的規模,區分細小的方向。

OpenAI做了一項研究,展示了用VPT訓練過的模型,再經過了微調之後,有多適應下游的資料集。

研究人員邀請人玩兒了10分鐘的「我的世界」,用基礎材料搭了個房子。他們希望透過這種方式可以加強模型執行一些遊戲初期的任務的能力,比如說搭一個工作台。

當對此資料集進行完微調以後,研究人員不僅發現模型在執行初期任務時更加得心應手,還發現模型自個兒研究明白了怎麼分別做出一張木制的工作台,和一張石製的工具台。

有時候,研究人員還能看到模型自己搭建簡陋的避難所,搜查村子,還有搶箱子。

驚呆了!訓練7萬小時後,OpenAI的模型竟然學會在「我的世界」刨木頭

製作石頭鎬的整個過程(下方標註的時間是熟練玩家執行同樣的任務的耗時)

驚呆了!訓練7萬小時後,OpenAI的模型竟然學會在「我的世界」刨木頭

製作石鎬

然後我們來看看,OpenAI的專家們是怎麼進行的微調。

他們使用的方法是,強化學習(RL)。

大多數RL方法透過隨機探索先驗來解決這些挑戰,例如模型通常被激勵透過熵獎勵隨機行動。 VPT 模型應該是RL更好的先驗模型,因為模擬人類行為可能比採取隨機行動更有幫助。

研究人員將模型設定為收集鑽石鎬這類艱鉅任務,這是「我的世界」中前所未有的功能,因為執行整個任務時使用本機人機介面時會變得更加困難。

製作鑽石鎬需要一系列漫長而複雜的子任務。為了使這項任務易於處理,研究人員為序列中的每個項目獎勵智能體。

驚呆了!訓練7萬小時後,OpenAI的模型竟然學會在「我的世界」刨木頭

他們發現,從隨機初始化(標準RL方法)訓練的RL策略幾乎沒有獲得任何獎勵,從不學習收集日誌,而且很少收集木棍。

與之形成鮮明對比的是,VPT模型的微調不僅可以學習如何製作鑽石鎬,而且在收集所有物品方面的成功率,甚至達到人類水平。

而這是第一次有人展示能夠在「我的世界」中製作鑽石工具的電腦模型。

以上是驚呆了!訓練7萬小時後,OpenAI的模型竟然學會在「我的世界」刨木頭的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它們
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

Debian郵件服務器防火牆配置技巧 Debian郵件服務器防火牆配置技巧 Apr 13, 2025 am 11:42 AM

配置Debian郵件服務器的防火牆是確保服務器安全性的重要步驟。以下是幾種常用的防火牆配置方法,包括iptables和firewalld的使用。使用iptables配置防火牆安裝iptables(如果尚未安裝):sudoapt-getupdatesudoapt-getinstalliptables查看當前iptables規則:sudoiptables-L配置

debian readdir如何與其他工具集成 debian readdir如何與其他工具集成 Apr 13, 2025 am 09:42 AM

Debian系統中的readdir函數是用於讀取目錄內容的系統調用,常用於C語言編程。本文將介紹如何將readdir與其他工具集成,以增強其功能。方法一:C語言程序與管道結合首先,編寫一個C程序調用readdir函數並輸出結果:#include#include#includeintmain(intargc,char*argv[]){DIR*dir;structdirent*entry;if(argc!=2){

debian readdir如何實現文件排序 debian readdir如何實現文件排序 Apr 13, 2025 am 09:06 AM

在Debian系統中,readdir函數用於讀取目錄內容,但其返回的順序並非預先定義的。要對目錄中的文件進行排序,需要先讀取所有文件,再利用qsort函數進行排序。以下代碼演示瞭如何在Debian系統中使用readdir和qsort對目錄文件進行排序:#include#include#include#include//自定義比較函數,用於qsortintcompare(constvoid*a,constvoid*b){returnstrcmp(*(

Debian OpenSSL如何進行數字簽名驗證 Debian OpenSSL如何進行數字簽名驗證 Apr 13, 2025 am 11:09 AM

在Debian系統上使用OpenSSL進行數字簽名驗證,可以按照以下步驟操作:準備工作安裝OpenSSL:確保你的Debian系統已經安裝了OpenSSL。如果沒有安裝,可以使用以下命令進行安裝:sudoaptupdatesudoaptinstallopenssl獲取公鑰:數字簽名驗證需要使用簽名者的公鑰。通常,公鑰會以文件的形式提供,例如public_key.pe

Debian郵件服務器SSL證書安裝方法 Debian郵件服務器SSL證書安裝方法 Apr 13, 2025 am 11:39 AM

在Debian郵件服務器上安裝SSL證書的步驟如下:1.安裝OpenSSL工具包首先,確保你的系統上已經安裝了OpenSSL工具包。如果沒有安裝,可以使用以下命令進行安裝:sudoapt-getupdatesudoapt-getinstallopenssl2.生成私鑰和證書請求接下來,使用OpenSSL生成一個2048位的RSA私鑰和一個證書請求(CSR):openss

Debian OpenSSL如何防止中間人攻擊 Debian OpenSSL如何防止中間人攻擊 Apr 13, 2025 am 10:30 AM

在Debian系統中,OpenSSL是一個重要的庫,用於加密、解密和證書管理。為了防止中間人攻擊(MITM),可以採取以下措施:使用HTTPS:確保所有網絡請求使用HTTPS協議,而不是HTTP。 HTTPS使用TLS(傳輸層安全協議)加密通信數據,確保數據在傳輸過程中不會被竊取或篡改。驗證服務器證書:在客戶端手動驗證服務器證書,確保其可信。可以通過URLSession的委託方法來手動驗證服務器

Debian Hadoop日誌管理怎麼做 Debian Hadoop日誌管理怎麼做 Apr 13, 2025 am 10:45 AM

在Debian上管理Hadoop日誌,可以遵循以下步驟和最佳實踐:日誌聚合啟用日誌聚合:在yarn-site.xml文件中設置yarn.log-aggregation-enable為true,以啟用日誌聚合功能。配置日誌保留策略:設置yarn.log-aggregation.retain-seconds來定義日誌的保留時間,例如保留172800秒(2天)。指定日誌存儲路徑:通過yarn.n

centos關機命令行 centos關機命令行 Apr 14, 2025 pm 09:12 PM

CentOS 關機命令為 shutdown,語法為 shutdown [選項] 時間 [信息]。選項包括:-h 立即停止系統;-P 關機後關電源;-r 重新啟動;-t 等待時間。時間可指定為立即 (now)、分鐘數 ( minutes) 或特定時間 (hh:mm)。可添加信息在系統消息中顯示。

See all articles