Transformers+世界模型,竟能拯救深度強化學習?
很多人都知道,當年打敗李世石、柯潔等一眾國際頂尖棋手的AlphaGo一共迭代了三個版本,分別是戰勝李世石的一代目AlphaGo Lee、戰勝柯潔的二代目AlphaGo Master,以及吊打前兩代的三代目AlphaGo Zero。
AlphaGo的棋藝能夠逐代遞增,背後其實是在AI技術上一個出現了明顯的變化趨勢,就是強化學習的比重越來越大。
到了近幾年,強化學習又發生了一次「進化」,人們把「進化」後的強化學習,稱為深度強化學習。
但深度強化學習代理的樣本效率低下,這極大地限制了它們在實際問題中的應用。
最近,許多基於模型的方法被設計來解決這個問題,在世界模型的想像中學習是最突出的方法之一。
然而,雖然與模擬環境幾乎無限的交互作用聽起來很吸引人,但世界模型必須在很長一段時間內保持準確。
受Transformer在序列建模任務中的成功啟發,康乃爾大學的文森特·米凱利、埃洛伊·阿隆索、弗朗索瓦·弗勒雷介紹了IRIS,這是一種資料高效代理,它在由離散自編碼器和自回歸Transformer組成的世界模型中學習。
在Atari 100k基準測試中,在僅相當於兩個小時的遊戲時間裡,IRIS的平均人類標準化得分為1.046,並且在26場比賽中的10場比賽中表現優於人類。
此前,LeCun曾說,強化學習會走進死胡同。
現在看來,康乃爾大學的文森特·米凱利、埃洛伊·阿隆索、弗朗索瓦·弗勒雷等人,正在將世界模型與強化學習(更準確地說是深度強化學習)融為一體,而連接兩者的橋樑,便是Transformers。
深度強化學習有什麼不一樣
一提到人工智慧技術,很多人能想到的,還是深度學習上。
其實,雖然深度學習仍活躍在AI領域,但已經暴露出許多問題。
現在深度學習用得最多的就是有監督學習。有監督學習不妨理解成“有參考答案的學習”,它有一個特點,就是數據必須經過標識才能用於訓練。但現在海量的數據是未標識數據,標識成本很高。
以至於針對這個局面,有人調侃道「有多少人工,就有多少智慧」。
很多研究人員,甚至包括有不少的大牛都在反思,琢磨深度學習是不是「錯了」。
於是,強化學習開始崛起了。
強化學習和有監督學習、無監督學習都不太一樣,它是用智能體不斷地試錯,並按試錯結果獎懲AI。這是DeepMind家做各種棋牌AI、遊戲AI的路數。這種路徑的信徒認為,只要獎勵激勵設定對頭,強化學習終將創造出真正AGI。
但強化學習也有問題,用LeCun的話來說,就是「強化學習要用巨量資料才能訓練模型執行最簡單任務」。
於是強化學習與深度學習進行了結合,成為深度強化學習。
深度強化學習,強化學習是骨架,深度學習是靈魂,這是什麼意思呢?深度強化學習的主要運作機制,其實與強化學習是基本一致的,只不過使用了深度神經網路來完成這個過程。
更有甚者,有的深度強化學習演算法,乾脆直接在現成的強化學習演算法上,透過添加深度神經網路來實現一套新的深度強化學習演算法,非常有名的深度強化學習演算法DQN就是典型的例子。
Transformers有什麼神奇之處
Transformers首次亮相於2017年,是Google的論文《Attention is All You Need》中提出的。
在 Transformer出現之前,人工智慧在語言任務上的進展一直落後於其他領域的發展。 「在過去10年發生的這場深度學習革命中,自然語言處理在某種程度上是後來者,」馬薩諸塞大學洛厄爾分校的電腦科學家Anna Rumshisky 說,「從某種意義上說,NLP曾落後於電腦視覺,而Transformer改變了這一點。」
近年來,Transformer機器學習模型已成為深度學習和深度神經網路技術進步的主要亮點之一。它主要用於自然語言處理中的高級應用。谷歌正在使用它來增強其搜尋引擎結果。
Transformer很快就成為專注於分析和預測文字的單字辨識等應用程式的領導者。它引發了一波工具浪潮,例如OpenAI的GPT-3可以在數千億個單字上進行訓練並產生連貫的新文字。
目前,Transformer架構不斷發展並擴展到多種不同的變體,從語言任務擴展到其他領域。例如,Transformer已被用於時間序列預測,同時也是DeepMind的蛋白質結構預測模型 AlphaFold背後的關鍵創新。
Transformer最近也進入了電腦視覺領域,在許多複雜任務中它們正在慢慢取代卷積神經網路(CNN)。
世界模式與Transformers聯手,其他人怎麼看
對於康乃爾大學的研究成果,有外國網友評論道:「請注意,這兩個小時是來自環境的鏡頭長度,在GPU上進行訓練需要一週的時間」。
還有人質疑:所以這個系統在一個特別精確的潛在世界模型上學習?該模型不需要預先訓練嗎?
另外,有人覺得,康乃爾大學的文森特·米凱利等人的成果並沒有破天荒的突破:「似乎他們只是訓練了世界模型,vqvae和演員評論家,所有這些都來自那2小時的經驗(和大約600個紀元)的重播緩衝區」。
參考資料:https://www.reddit.com/r/MachineLearning/comments/x4e4jx/r_transformers_are_sample_efficient_world_models/
以上是Transformers+世界模型,竟能拯救深度強化學習?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

許多剛接觸酷家樂軟體的用戶,不是很熟悉酷家樂如何自己建模?以下文章就為各位帶來了酷家樂自己建模的操作步驟,讓我們一起來看看吧。進入酷家樂平台,在酷家樂裡,點選進入設計裝潢介面。在設計介面,點選左側的產業庫,在產業庫裡點選全屋硬裝工具。在全屋硬裝工具裡,可以進行建模操作。

許多人都知道,當年打敗李世石、柯潔等一眾國際頂尖棋手的AlphaGo一共迭代了三個版本,分別是戰勝李世石的一代目AlphaGoLee、戰勝柯潔的二代目AlphaGoMaster,以及吊打前兩代的三代目AlphaGoZero。 AlphaGo的棋藝能夠逐代遞增,背後其實是在AI技術上一個出現了明顯的變化趨勢,就是強化學習的比重越來越大。到了近幾年,強化學習又發生了一次「進化」,人們把「進化」後的強化學習,稱為深度強化學習。但深度強化學習代理的樣本效率低下,這極大地限制了它們在實際問題中的應用。最近

一鍵生成可玩遊戲世界。問世才兩個星期,Google的世界模型也來了,能力看起來更強大:它產生的虛擬世界「自主可控」。剛剛,Google定義了生成式AI的全新範式-生成式互動環境(Genie,GenerativeInteractiveEnvironments)。 Genie是一個110億參數的基礎世界模型,可以透過單張圖像提示產生可玩的互動式環境。我們可以用它從未見過的影像來提示,然後與自己想像中的虛擬世界互動。不管是合成影像、照片甚至手繪草圖,Genie都可以從中產生無窮無盡的可玩世界。 Ge

隨著網路的普及,Web應用的需求越來越高。在過去,我們可能使用PHP、Java或Python等語言來建立網路應用,但隨著新的技術的不斷湧現,我們現在更多地選擇使用Golang建立Web應用。在Golang中,Iris是一款非常優秀的Web框架,它擁有著和其他主流Web框架一樣的功能和使用便利性。在本文中,我們將探討使用Iris框架建立Web應用的基礎知識。

go語言建模庫的官網有:1、GORM,簡單但功能強大的ORM庫;2、XORM,具有高效能和易用性;3、beego ORM,提供了簡潔的API來處理資料庫存取和資料映射;4、sqlx,輕量級的資料庫工具庫;5、gorp,提供了簡單的API來處理資料的持久化和查詢。

隨著人工智慧和機器學習技術的快速發展,深度學習已成為人工智慧領域的熱門技術之一。 Python作為一種易學易用的程式語言,已經成為了許多深度學習從業者的首選語言。本文將為大家介紹如何在Python中使用深度建模。 1.安裝和設定Python環境首先,我們需要安裝Python和相關的深度學習庫。目前,Python中最常用的深度學習庫是TensorFlow和PyT

Numpy是Python中最常用的數學庫之一,它整合了許多最佳的數學函數和操作。 Numpy的使用非常廣泛,包括統計、線性代數、影像處理、機器學習、神經網路等領域。在資料分析和建模方面,Numpy更是不可或缺的工具之一。本文將分享Numpy常用的數學函數,以及使用這些函數實作資料分析和建模的範例程式碼。一、建立陣列使用Numpy中array()函數可以建立一個數

最近一段時間,生成式AI技術興起,許多造車新勢力都在探索視覺語言模型與世界模型的新方法,端到端的智慧駕駛新技術似乎成為了共同的研究方向。上個月,理想汽車發布了端到端+VLM視覺語言模型+世界模型的第三代自動駕駛技術架構。此架構已推送千人內測,將智慧駕駛行為擬人化,提高了AI的資訊處理效率,增強了對複雜路況的理解和應對能力。李想曾在公開的分享中表示,面對大部分演算法難以辨識和處理的罕見駕駛環境,VLM(VisualLanguageModel)即視覺語言模型可以系統地提升自動駕駛的能力,這種方法從理論
