目錄
無模型的強化學習
以模型為基礎的強化學習
基於模型VS 無模型
多種學習模式
参考资料:
首頁 科技週邊 人工智慧 從老鼠在迷宮中行走到AlphaGo戰勝人類,強化學習的發展歷程

從老鼠在迷宮中行走到AlphaGo戰勝人類,強化學習的發展歷程

May 09, 2023 pm 09:49 PM
ai 強化學習 基於模型

談到強化學習,許多研究人員的腎上腺素便不受控制地飆升!它在遊戲AI系統、現代機器人、晶片設計系統和其他應用中發揮著十分重要的作用。 

強化學習演算法有許多不同的類型,但主要分為兩類:「基於模型的」和「無模型的」。

在與TechTalks的對話中,神經科學家、 「智能的誕生」一書的作者Daeyeol Lee分別討論了人類和動物強化學習的不同模式、人工智慧和自然智能,以及未來的研究方向。 

從老鼠在迷宮中行走到AlphaGo戰勝人類,強化學習的發展歷程

無模型的強化學習

19世紀後期,心理學家Edward Thorndike提出的「效果定律」成為了無模型強化學習的基礎。 Thorndike提出,在特定情境中具有正面影響的行為,在該情境中更有可能再次發生,而產生負面影響的行為則不太可能再發生。

Thorndike在一個實驗中探討了這個「效應定律」。 他把一隻貓放在一個迷宮盒子中,並測量貓從盒子中逃脫所需的時間。為了逃脫,貓必須操作一系列小工具,如繩子和槓桿。 Thorndike觀察到,當貓與謎盒互動時,它學會了有助於逃跑的行為。隨著時間的推移,貓逃離盒子的速度越來越快。 Thorndike的結論是,貓可以從其行為提供的獎勵和懲罰中進行學習。 「效應定律」後來為行為主義鋪平了道路。行為主義是心理學的一個分支,試圖從刺激和反應的角度來解釋人類和動物的行為。 「效應定律」也是無模型強化學習的基礎。在無模型強化學習中,透過主體感知世界,然後採取行動,同時衡量獎勵。 

在無模型強化學習中,並不存在直接的知識或世界模型。 RL代理必須透過反覆試驗,直接去體驗每個動作的結果。 

以模型為基礎的強化學習

Thorndike的「效果定律」一直流行到1930年代。當時另一位心理學家Edward Tolman在探索老鼠如何快速學會走迷宮時發現了一個重要的洞見。在他的實驗中,Tolman意識到動物可以在沒有強化的情況下了解他們的環境。 

例如,當老鼠在迷宮中被放出來時,它會自由地探索隧道,並逐漸了解環境的結構。如果隨後將這隻老鼠重新放進相同的環境,並提供強化訊號,例如尋找食物或尋找出口,那麼它可以比沒有探索過迷宮的動物更快到達目標。 Tolman稱之為「潛在學習」,這成為基於模型的強化學習的基礎。 「潛在學習」使動物和人類對他們的世界形成一種心理表徵,在他們的頭腦中模擬假設的場景,並預測結果。

從老鼠在迷宮中行走到AlphaGo戰勝人類,強化學習的發展歷程

 基於模型的強化學習的優點是它消除了agent在環境中進行試誤的需要。 值得強調的一點是:基於模型的強化學習在開發能夠掌握國際象棋和圍棋等棋盤遊戲的人工智慧系統方面尤其成功,可能的原因是這些遊戲的環境是確定的。

從老鼠在迷宮中行走到AlphaGo戰勝人類,強化學習的發展歷程

基於模型VS 無模型

 通常來說,基於模型的強化學習會非常耗時,在對時間極度敏感的時候,可能會發生致命的危險。 Lee說:「在計算上,基於模型的強化學習要複雜得多。首先你必須獲得模型,進行心理模擬,然後你必須找到神經過程的軌跡,再採取行動。不過,基於模型的強化學習不一定就比無模型的RL複雜。」 當環境十分複雜時,倘若可以用一個相對簡單的模型(該模型可以快速獲得)進行建模,那麼模擬就會簡單得多,而且具有成本效益。 

多種學習模式

#

其实,无论是基于模型的强化学习还是无模型的强化学习都不是一个完美的解决方案。无论你在哪里看到一个强化学习系统解决一个复杂的问题,它都有可能是同时使用基于模型和无模型的强化学习,甚至可能更多形式的学习。 神经科学的研究表明,人类和动物都有多种学习方式,而大脑在任何特定时刻都在这些模式之间不断切换。 ​最近几年,人们对创造结合多种强化学习模式的人工智能系统越来越感兴趣。 加州大学圣地亚哥分校的科学家最近的研究表明,将无模型强化学习和基于模型的强化学习结合起来,可以在控制任务中取得卓越的表现。 Lee表示:「如果你看看像AlphaGo这样复杂的算法,它既有无模型的RL元素,也有基于模型的RL元素,它根据棋盘配置学习状态值,这基本上是无模型的 RL,但它同时也进行基于模型的前向搜索。」 

尽管取得了显著的成就,强化学习的进展仍然缓慢。一旦RL模型面临复杂且不可预测的环境,其性能就会开始下降。​

Lee说:「我认为我们的大脑是一个学习算法的复杂世界,它们已经进化到可以处理许多不同的情况。」 

除了在这些学习模式之间不断切换之外,大脑还设法一直保持和更新它们,即使是在它们没有积极参与决策的情况下。 

心理学家Daniel Kahneman表示:「维护不同的学习模块并同时更新它们是有助于提高人工智能系统的效率和准确性。」 

我们还需要清楚另一件事——如何在AI系统中应用正确的归纳偏置,以确保它们以具有成本效益的方式学习正确的东西。 数十亿年的进化为人类和动物提供了有效学习所需的归纳偏置,同时使用尽可能少的数据。 归纳偏置可以理解为,从现实生活观察到的现象中,总结出规则,然后对模型做一定的约束,从而可以起到模型选择的作用,即从假设空间中选择出更符合现实规则的模型。 Lee说:「我们从环境中获得的信息非常少。使用这些信息,我们必须进行概括。原因是大脑存在归纳偏置,并且存在可以从一小组示例中概括出来的偏置。这是进化的产物,越来越多的神经科学家对此感兴趣。」 然而,虽然归纳偏置在物体识别任务中很容易理解,但在构建社会关系等抽象问题中就变得晦涩难懂。 未来,需要我们了解的还有很多~~~​

参考资料:

https://thenextweb.com/news/everything-you-need-to-know-about-model-free-and-model-based-reinforcement-learning​

以上是從老鼠在迷宮中行走到AlphaGo戰勝人類,強化學習的發展歷程的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它們
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

Debian郵件服務器防火牆配置技巧 Debian郵件服務器防火牆配置技巧 Apr 13, 2025 am 11:42 AM

配置Debian郵件服務器的防火牆是確保服務器安全性的重要步驟。以下是幾種常用的防火牆配置方法,包括iptables和firewalld的使用。使用iptables配置防火牆安裝iptables(如果尚未安裝):sudoapt-getupdatesudoapt-getinstalliptables查看當前iptables規則:sudoiptables-L配置

debian readdir如何與其他工具集成 debian readdir如何與其他工具集成 Apr 13, 2025 am 09:42 AM

Debian系統中的readdir函數是用於讀取目錄內容的系統調用,常用於C語言編程。本文將介紹如何將readdir與其他工具集成,以增強其功能。方法一:C語言程序與管道結合首先,編寫一個C程序調用readdir函數並輸出結果:#include#include#includeintmain(intargc,char*argv[]){DIR*dir;structdirent*entry;if(argc!=2){

debian readdir如何實現文件排序 debian readdir如何實現文件排序 Apr 13, 2025 am 09:06 AM

在Debian系統中,readdir函數用於讀取目錄內容,但其返回的順序並非預先定義的。要對目錄中的文件進行排序,需要先讀取所有文件,再利用qsort函數進行排序。以下代碼演示瞭如何在Debian系統中使用readdir和qsort對目錄文件進行排序:#include#include#include#include//自定義比較函數,用於qsortintcompare(constvoid*a,constvoid*b){returnstrcmp(*(

Debian OpenSSL如何進行數字簽名驗證 Debian OpenSSL如何進行數字簽名驗證 Apr 13, 2025 am 11:09 AM

在Debian系統上使用OpenSSL進行數字簽名驗證,可以按照以下步驟操作:準備工作安裝OpenSSL:確保你的Debian系統已經安裝了OpenSSL。如果沒有安裝,可以使用以下命令進行安裝:sudoaptupdatesudoaptinstallopenssl獲取公鑰:數字簽名驗證需要使用簽名者的公鑰。通常,公鑰會以文件的形式提供,例如public_key.pe

Debian郵件服務器SSL證書安裝方法 Debian郵件服務器SSL證書安裝方法 Apr 13, 2025 am 11:39 AM

在Debian郵件服務器上安裝SSL證書的步驟如下:1.安裝OpenSSL工具包首先,確保你的系統上已經安裝了OpenSSL工具包。如果沒有安裝,可以使用以下命令進行安裝:sudoapt-getupdatesudoapt-getinstallopenssl2.生成私鑰和證書請求接下來,使用OpenSSL生成一個2048位的RSA私鑰和一個證書請求(CSR):openss

centos關機命令行 centos關機命令行 Apr 14, 2025 pm 09:12 PM

CentOS 關機命令為 shutdown,語法為 shutdown [選項] 時間 [信息]。選項包括:-h 立即停止系統;-P 關機後關電源;-r 重新啟動;-t 等待時間。時間可指定為立即 (now)、分鐘數 ( minutes) 或特定時間 (hh:mm)。可添加信息在系統消息中顯示。

Debian OpenSSL如何防止中間人攻擊 Debian OpenSSL如何防止中間人攻擊 Apr 13, 2025 am 10:30 AM

在Debian系統中,OpenSSL是一個重要的庫,用於加密、解密和證書管理。為了防止中間人攻擊(MITM),可以採取以下措施:使用HTTPS:確保所有網絡請求使用HTTPS協議,而不是HTTP。 HTTPS使用TLS(傳輸層安全協議)加密通信數據,確保數據在傳輸過程中不會被竊取或篡改。驗證服務器證書:在客戶端手動驗證服務器證書,確保其可信。可以通過URLSession的委託方法來手動驗證服務器

Debian Hadoop日誌管理怎麼做 Debian Hadoop日誌管理怎麼做 Apr 13, 2025 am 10:45 AM

在Debian上管理Hadoop日誌,可以遵循以下步驟和最佳實踐:日誌聚合啟用日誌聚合:在yarn-site.xml文件中設置yarn.log-aggregation-enable為true,以啟用日誌聚合功能。配置日誌保留策略:設置yarn.log-aggregation.retain-seconds來定義日誌的保留時間,例如保留172800秒(2天)。指定日誌存儲路徑:通過yarn.n

See all articles