世界模型也擴散!訓練出的智能體竟然不錯
世界模型提供了一種以安全且樣本高效的方式訓練強化學習智能體的方法。近期,世界模型主要對離散潛在變數序列進行操作來模擬環境動態。
然而,這種壓縮為緊湊離散表徵的方法可能會忽略對強化學習很重要的視覺細節。另一方面,擴散模型已成為影像生成的主要方法,對離散潛在模型提出了挑戰。
這種典範轉移的推動,來自日內瓦大學、愛丁堡大學、微軟研究院的研究者聯合提出一種在擴散世界模型中訓練的強化學習智能體——DIAMOND (DIffusion As a Model Of eNvironment Dreams)。
- #論文網址:https://arxiv .org/abs/2405.12399
- #專案網址:https://github.com/eloialonso/diamond
- #論文標題:Diffusion for World Modeling: Visual Details Matter in Atari
在Atari 100k基準測試中, DIAMOND+獲得了1.46的平均人類歸一化得分(HNS)。這意味著在世界模型中訓練的智能體的SOTA水平完全可以在世界模型中訓練的智能體的SOTA水平進行完全訓練。該研究提供了穩定性分析來說明DIAMOND的設計選擇對於確保擴散世界模型的長期高效穩定是必要的。
除了在影像空間中操作的好處是使擴散世界模型能夠成為環境的直接代表,從而提供對世界模型和智能體行為更深入的了解。特別地,該研究發現某些遊戲中表現的提高源於對關鍵視覺細節的更好建模。
方法介紹
接下來,本文介紹了 DIAMOND,這是一種在擴散世界模型中訓練的強化學習智能體。具體來說,研究者基於 2.2 節引入的漂移和擴散係數 f 和 g,這兩個係數對應於特定的擴散範式選擇。此外,該研究還選擇了基於 Karras 等人提出的 EDM 公式。
首先定義一個擾動核,,其中,
是一個與擴散時間相關的實值函數,稱為雜訊時間表。這對應於將漂移和擴散係數設為
和
。
接著使用Karras 等人(2022)引入的網路預處理,同時參數化公式(5)中的,作為雜訊觀測值和神經網路
預測價值的加權與:
得到公式(6)
其中為了簡潔定義,包含所有條件變數。
預處理器的選擇。選擇預處理器和
,以保持網路輸入和輸出在任何雜訊等級
下的單位變異數。
是雜訊等級的經驗轉換,
由
與資料分佈的標準差
給出,公式為
結合公式5 和6,得到訓練目標:
#該研究使用標準的U-Net 2D 來建構向量場,並保留一個包含過去L 個觀測和動作的緩衝區,以此來條件化模型。接下來他們將這些過去的觀測以通道方式與下一個帶雜訊觀測拼接,並透過自適應組歸一化層將動作輸入到 U-Net 的殘差區塊中。如同在第 2.3 節和附錄 A 中討論的,有許多可能的採樣方法可以從訓練好的擴散模型中產生下一個觀測。雖然該研究發布的程式碼庫支援多種採樣方案,但該研究發現歐拉方法在不需要額外的NFE(函數評估次數)以及避免了高階採樣器或隨機採樣的不必要複雜性的情況下是有效的。
實驗
為了全面評估DIAMOND,該研究使用了公認的Atari 100k 基準測試,該基準測試包括26 個遊戲,用於測試智能體的廣泛能力。對於每個遊戲,智能體只允許在環境中進行 100k 次操作,這大約相當於人類 2 小時的遊戲時間,以便在評估前學習玩遊戲。作為參考,沒有限制的 Atari 智能體通常訓練 5000 萬步,相當於經驗的 500 倍增加。研究者從頭開始在每個遊戲上用 5 個隨機種子訓練 DIAMOND。每次運行大約使用 12GB 的 VRAM,在單一 Nvidia RTX 4090 上大約需要 2.9 天(總計 1.03 個 GPU 年)。
表1 比較了在世界模型中訓練智能體的不同分數:
圖2 中提供了平均值和IQM( Interquartile Mean )置信區間:
結果表明, DIAMOND 在基準測試中表現強勁,超過人類玩家在11 個遊戲中的表現,並達到了1.46 的HNS 得分,這是完全在世界模型中訓練的智能體的新紀錄。研究還發現,DIAMOND 在需要捕捉細節的環境中表現特別出色,例如 Asterix、Breakout 和 Road Runner。
為了研究擴散變數的穩定性,研究分析了自迴歸產生的想像軌跡(imagined trajectory),如下圖3 所示:
研究發現有些情況需要迭代求解器將取樣過程驅動到特定模式,如圖4 所示的拳擊遊戲:
如圖5 所示,與IRIS 想像的軌跡相比,DIAMOND 想像的軌跡通常具有更高的視覺質量,並且更符合真實環境。
有興趣的讀者可以閱讀論文原文,了解更多研究內容。
以上是世界模型也擴散!訓練出的智能體竟然不錯的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

目前的深度邊緣檢測網路通常採用編碼器-解碼器架構,其中包含上下採樣模組,以更好地提取多層次的特性。然而,這種結構限制了網路輸出準確且細緻的邊緣檢測結果。針對這個問題,一篇AAAI2024的論文給了新的解決方案。論文題目:DiffusionEdge:DiffusionProbabilisticModelforCrispEdgeDetection作者:葉雲帆(國防科技大學),徐凱(國防科技大學),黃雨行(國防科技大學),易任嬌(國防科技大學),蔡志平(國防科技大學)論文連結:https ://ar

趕在春節前,通義千問大模型(Qwen)的1.5版上線了。今天上午,新版本的消息引發了AI社群關注。新版大機型包括六個型號尺寸:0.5B、1.8B、4B、7B、14B和72B。其中,最強版本的效能超越了GPT3.5和Mistral-Medium。此版本包含Base模型和Chat模型,並提供多語言支援。阿里通義千問團隊表示,相關技術也已經上線到了通義千問官網和通義千問App。除此之外,今天Qwen1.5的發布還有以下一些重點:支援32K上下文長度;開放了Base+Chat模型的checkpoint;

大型語言模型(LLM)通常擁有數十億參數,經過數萬億token的資料訓練。然而,這樣的模型訓練和部署成本都非常昂貴。為了降低運算需求,人們常常採用各種模型壓縮技術。這些模型壓縮技術一般可分為四類:蒸餾、張量分解(包括低秩因式分解)、剪枝、量化。剪枝方法已經存在一段時間,但許多方法需要在剪枝後進行恢復微調(RFT)以保持性能,這使得整個過程成本高昂且難以擴展。蘇黎世聯邦理工學院和微軟的研究者提出了一個解決這個問題的方法,名為SliceGPT。此方法的核心思想是透過刪除權重矩陣中的行和列來降低網路的嵌

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

在去年4月,威斯康辛大學麥迪遜分校、微軟研究院和哥倫比亞大學的研究者們共同發布了LLaVA(LargeLanguageandVisionAssistant)。儘管LLaVA只是用一個小的多模態指令資料集進行訓練,但在一些樣本上展現了與GPT-4非常相似的推理結果。然後在10月,他們推出了LLaVA-1.5,透過對原始LLaVA進行簡單修改,在11個基準測試中刷新了SOTA。這次升級的結果非常令人振奮,為多模態AI助理領域帶來了新的突破。研究團隊宣布推出LLaVA-1.6版本,針對推理、OCR和

什麼?瘋狂動物城被國產AI搬進現實了?與影片一同曝光的,是一款名為「可靈」全新國產影片生成大模型。 Sora利用了相似的技術路線,結合多項自研技術創新,生產的影片不僅運動幅度大且合理,還能模擬物理世界特性,具備強大的概念組合能力與想像。數據上看,可靈支持生成長達2分鐘的30fps的超長視頻,分辨率高達1080p,且支援多種寬高比。另外再劃個重點,可靈不是實驗室放出的Demo或影片結果演示,而是短影片領域頭部玩家快手推出的產品級應用。而且主打一個務實,不開空頭支票、發布即上線,可靈大模型已在快影

哭死啊,全球狂煉大模型,一網路的資料不夠用,根本不夠用。訓練模型搞得跟《飢餓遊戲》似的,全球AI研究者,都在苦惱怎麼才能餵飽這群資料大胃王。尤其在多模態任務中,這問題尤其突出。一籌莫展之際,來自人大系的初創團隊,用自家的新模型,率先在國內把「模型生成數據自己餵自己」變成了現實。而且還是理解側和生成側雙管齊下,兩側都能產生高品質、多模態的新數據,對模型本身進行數據反哺。模型是啥?中關村論壇上剛露面的多模態大模型Awaker1.0。團隊是誰?智子引擎。由人大高瓴人工智慧學院博士生高一鑷創立,高
