目錄
01. 背景:經驗對智慧發展的重要意義" >01. 背景:經驗對智慧發展的重要意義
02.經驗在AI發展的歷程" >02.經驗在AI發展的歷程
1.智能體(Agenthood)" >1.智能體(Agenthood)
2.獎勵(Reward)" >2.獎勵(Reward)
3.插曲:什麼是經驗" >3.插曲:什麼是經驗
4.經驗狀態(Experiential State)" >4.經驗狀態(Experiential State)
#5.預測性知識(Predictive Knowledge)" >#5.預測性知識(Predictive Knowledge)
#03.未來AI 利用經驗的方法" >#03.未來AI 利用經驗的方法
首頁 科技週邊 人工智慧 Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

Apr 09, 2023 am 10:01 AM
ai 發展 經驗

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

導讀:#強人工智慧的發展是近年來關注的議題。讓AI從人類的知覺和行為,而非單純的標註資料中學習,成為許多研究者關注的重點。其中,如何運用人類習得的日常生活經驗,啟發建構能夠適應不同環境,與外部世界互動的人工智慧這成為一些領域探索的新路。

被譽為強化學習之父的Richard Sutton近日提出了利用經驗啟發AI發展的思路。他將AI從利用數據到利用經驗的過程分為四個發展階段,提出了未來建構真正AI(Real AI)的發展方向。 2022年5月31日,Richard Sutton在2022北京智源大會上發表了題為“The Increasing Role of Sensorimotor Experience in AI”的主題演講,對利用經驗啟發AI發展的方法進行了總結和展望。

講者簡介:#理查德·薩頓(Richard Sutton),現代計算型強化學習創始人之一,是DeepMind 的傑出研究科學家,阿爾伯塔大學計算科學系教授,也是英國皇家學會、加拿大皇家學會、人工智慧促進會、阿爾伯塔機器智能研究所(AMII) 和CIFAR的研究員。

01. 背景:經驗對智慧發展的重要意義

Sutton認為,智能體與外在世界發生交互,向其發出動作,並接收感知(帶來的回饋)。這種涉及經驗的交互,是強化學習中正常的感知方式。也是讓智能體嘗試預測外在世界時所採用的正常途徑。然而,這種方法在監督學習中並不多見,而監督學習是目前最常見的機器學習類型。機器學習中並不涉及普通經驗(Ordinary Experience),模型也不會從不同於普通經驗的特殊訓練資料中學習。事實上,在運作時,監督學習系統根本不學習。

所以說,經驗是互動(帶來)的數據,是與外在世界溝通的途徑。經驗沒有任何意義,除非與其他經驗之間產生連結。當然,有一個例外:經由特殊訊號所表示獎勵。獎勵代表好的目標,智能體當然希望能最大化獎勵。在

演講中,Sutton提出了一個核心問題:智能最終是可以被什麼來解釋?是客觀的術語(Objective terms),還是經驗的術語(Experiential terms)?前者包含外在世界的狀態、目標、人、地點、關係、空間、動作、距離等不在智能體中的事物,後者則包含感知、動作、獎勵、時間步等智能體內在的事物。 Sutton認為,儘管研究者通常會在交流和寫論文時思考客觀的概念,但是現在應該更加關注智能體與外部世界互動過程中產生的經驗。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

為了進一步介紹經驗對於智能體的重要意義,Richard Sutton 提出,隨著經驗逐漸被重視,一共經歷了四個階段。分別為:智能體(Agenthood ),獎勵(Reward),經驗狀態(Experiential State),以及可預測知識(Predictive Knowledge)。經過這四個階段的發展,AI逐漸擁有經驗,變得更加實際、可學習且易於擴展。

#

02.經驗在AI發展的歷程

1.智能體(Agenthood)

 智能體的意思是擁有/獲得經驗(的AI)。可能令人驚訝的是,早期的AI系統確實沒有任何經驗。在人工智慧發展的早期階段(1954-1985年),大多數AI系統只是用來解決問題或回答問題,他們沒有感知能力,也不會行動。機器人是個例外,但傳統的系統只有啟動狀態和目標狀態,如同下圖要堆疊的積木塊。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

如果要達到適當的目標狀態,其解決方案就是一個行動序列,確保AI能夠從啟動狀態達到目標狀態。這其中沒有感知和行動的存在,因為整個外在世界是已知、確定、封閉的,所以並不需要讓AI感知和行動。研究者知道什麼事情會發生,所以只需要建立一個解決問題的計劃,讓AI來執行即可,人類知道這樣就能解決問題。

在過去30年的發展中,人工智慧的研究著重於建構智能體。這種轉變可以體現在這一點:人工智慧的標準教科書囊括了智能體的概念,將其作為基礎。例如,1995年版本的《人工智慧:一種現代的方法》中提到,全書的統一主題在於介紹智能體(Intelligent Agent)的概念。在這種視角下,AI的問題在於描述和建構智能體,並從環境中獲得認知,並採取行動。隨著研究的發展,標準、現代的方法是建構一個能夠和外在世界互動的智能體。 Sutton認為可以從這個視角看待AI。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

2.獎勵(Reward)

獎勵(Reward)是以經驗的形式來描述AI的目標。這也是目前提出的有效方法,能夠建構AI的所有目標。這也是Sutton與其合作者提出的方法。

獎勵被認為是目前較為充分的一種假說-智慧及其相關的能力都可以被理解為是服務於最大化獎勵的結果。所以有說法認為,獎勵對於智能體而言已經足夠了。

然而Sutton認為,這個想法是需要被挑戰的。獎勵並不足夠實現智慧。獎勵只是一個數字、一個標量,它並不足以解釋智能的目標。來自頭腦之外,僅用單一數字表達的目標,顯得太小、太還原,甚至太貶低(人類的目標)了。人類喜歡把目標想像得更宏大,如照顧家庭、拯救世界、世界和平、讓世界更美好。人類的目標比最大化快樂和舒適更為重要。

正如研究者發現獎勵並不是很好的建構目標的方法,研究者也發現了透過獎勵來建構目標的優勢。獎勵建構的目標太小,但是人們可以在其中取得進展——目標可以被良好、清晰地定義,且易於學習。這對於透過經驗建構目標而言反而是個挑戰。

Sutton認為,想像透過經驗來充分建構目標,這是有挑戰的。回顧歷史可以看到,AI原本也不是對獎勵有興趣的,即使是現在也是如此。所以,不管是早期的問題解決系統,還是當前最新版的AI教科書,其依然將目標定義為需要達到的世界狀態(World State),而非經驗性的(定義)。這種目標可能仍然是特定的一系列“積木”,而不是一種需要達到的感知結果。

#

當然,最新的教科書中已經有章節提到強化學習,並提及這些AI使用的是獎勵機制。此外,建構目標的過程中,獎勵已是一種常規的做法,可以使用馬爾科夫決策過程來實現。對於批評獎勵不能夠充分建構目標的研究者(如Yann LeCun)來說,獎勵已經是智慧這塊「蛋糕」頂端的「櫻桃」了,它很重要。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

在接下來的兩個階段,Sutton將介紹如何從經驗的角度來理解外在世界,但在此之前,他將先介紹經驗指涉的是什麼。

3.插曲:什麼是經驗

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

如下圖的序列(非真實資料)所示,當時間步啟動的時候,系統會得到感知訊號,也會發出訊號和行動。所以感知訊號可能會引起一些動作,而這些動作會造成下一個感知訊號。在任何時候,系統都需要專注於專注於最近的行動和最近的訊號,這樣才能決定接下來會發生什麼,該怎麼做。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

如圖所示,這是一個智慧型體執行程式的輸入輸出訊號陣列。第一列是時間步,每一步可認為是0.1秒或0.01秒的瞬間。行動訊號列則採用二級表示,以灰白兩色表示。之後是感知訊號列,其中前四列是二進位值(也使用灰白兩色),後四列則採用0-3的四種取值,以紅黃藍綠四種顏色表示,最後一列則是連續變量,代表獎勵。在實驗中,研究者將數字去除,只留下顏色,以便在其中尋找模式。 Sutton認為,經驗,是指對感覺-運動經驗的數據中發現的模式所產生的知識和理解。

在本案例中,Sutton列舉了四個典型的模式:

1.行動的最後一位,和緊接著的感知訊號是相同的。如果某一時間步的行動是白色的,其後的第一個感知訊號也是白色,灰色亦然。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

2.當出現紅像素時,緊接在後的一個時間步是綠色像素。擴大資料範圍後可以發現,紅綠像素先後出現後,隔一個時間步驟會出現藍色像素。

3.資料的最後三列往往會出現一長串同樣顏色,保持不變。一種顏色一旦開始,會持續多個時間週期,最終形成條紋。如很長的一串紅色、綠色、藍色等。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

4.如果展示AI預測的特定感知數據,很多時候這是無法立刻被觀察到的,因此在本資料中增加回傳值(Return),其代表著對將會到來的獎勵的預測。框中的綠色條帶代表了隨後的獎賞中,綠色會比紅色多。這代表著當前對於獎勵的預測。

#

特殊的陰影區域則表示等待函數。等待函數的陰影區域會有綠色和紅色的條帶。在這裡,研究者將越早回歸的,帶有顏色獎勵給予更高的權重。當隨著返回值根據時間移動時,就可以看到預測結果和實際獎勵之間的顏色和值的對應變化,這種返回值便是一種預測——其可以從經驗中學習到。

Sutton認為,這種回傳值本質上並​​不是從已經發生的事件中學習的,而是從時間差訊號中學到的。其中最重要的訊號就是價值函數。在本例中,返回值實際上是一個價值函數,代表的是對於未來獎勵的總和。如果想要一個一般形式的,複雜的,能夠指涉未來值的函數,可採用名為一般價值函數(General Value Functions GVFs)的方法。一般價值函數包括了各種訊號,不僅僅是獎勵;可以是任何時間包絡形式,而不僅僅是指數。一般價值函數也可以包括任何隊列的策略,可以預測數量非常多,範圍很廣的事情。當然,Sutton認為,透過計算進行預測,其難易度取決於被預測對象的形式。當使用一般價值函數進行預測時,被預測物件的表達形式需要被設計成易於學習的形式,且需要很高的計算效率。

4.經驗狀態(Experiential State)

#提到「狀態」這個詞,很多研究會提到的是世界狀態(World State),這是一個屬於客觀概念之下的字。狀態指的是客觀世界的一種符號化的描述(反映),能夠和世界本身的情況匹配。例如,對於積木塊的位置資訊(C在A上)等。在最近的一段時間,一些研究者(如Judea Pearl)提出了機率圖模型,其表示的是世界狀態的機率分佈。有些事件,如「外面下雨,草地是否是濕的?」等,這些事件之間都存在著機率關係。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

#另一種狀態是信念狀態(Belief State) ,在這種概念中,狀態是一種機率分佈,表示的是離散世界的狀態,其對應的方法被稱為POMDPs(Partially observable Markov decision process)——存在隱藏狀態變量,其中部分是可觀察到的,可以使用馬爾科夫決策過程進行建模。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

以上的方法都是客觀的狀態,與經驗相距甚遠,是研究者一開始嘗試描述世界狀態的方法。

而與之不同的,是經驗狀態。 Sutton認為,經驗狀態指的是整個世界的狀態是根據經驗來定義。經驗狀態是過去經驗的總結,能夠預測並控制未來將會獲得的經驗。

這種建構過去經驗,預測未來的做法,在研究中已有體現。例如,強化學習任務之一——雅達利遊戲中,研究者會用最後四幀的影片建構經驗狀態,然後預測之後的行為。 LSTM網路中的一些方法,也可以被認為是從某種經驗狀態中進行預測。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

回看經驗狀態,它是可以遞歸更新的。經驗狀態是整個過去發生事情總結的函數,由於AI需要每時每刻訪問經驗狀態,實現對接下來發生事件的預測,所以經驗狀態的更新是遞歸式的:當前時刻只訪問上一時刻的經驗狀態,而上一時刻經驗狀態是過去所有發生過的事件的總結。到了下一個時刻,也只造訪此時此刻的經驗狀態,而這個經驗狀態也是對過去發生的所有事件的總結。

下圖顯示了智能體經驗狀態的建構過程。其中,紅色箭頭顯示智能體的基礎工作訊號,包括:感覺、行動、獎勵等。藍箭頭標註的是經驗狀態(表徵)的方向,從感知中輸出,其負責對每個時間步更新其經驗狀態。更新的狀態會被用來為行動制定策略,或進行其他更新。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

#5.預測性知識(Predictive Knowledge)

知識,如“喬拜登是美國總統”,“艾菲爾鐵塔在巴黎”等,都是對於外部客觀世界的一種描述,並不是經驗性的。但是,類似於「做某事預計花費X小時」這類知識,是經驗知識。經驗知識和客觀知識之間存在著巨大的差異,這也是AI研究具有挑戰性的一點。

過去的AI研究傾向於將知識視為一種客觀項,儘管近期已經有一些研究從經驗的角度來看待問題。早期的AI系統沒有經驗,也無法進行預測。而更現代一些的AI將知識視為客觀的存在。較先進的是機率圖模型,但是很多時候其研究的是兩件同時發生的事情之間的機率,而預測面向的應該是一連串序列事件。

基於對序列事件的預測是具有明確語意屬性的知識。如果某事情被預測會發生,AI就可以將預測和實際結果進行比較。而這種預測模型,可以被認為是一種新的世界知識,也就是預測性知識。而在預測性知識中,Sutton認為最前沿的就是通用價值函數(General Value Function)和選擇模型(Option Model)。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

Sutton 將世界知識分成兩類,一是關於世界狀態的知識;二是關於世界狀態轉換的知識。有關世界狀態轉換知識的案例是世界預測模型。此處的的世界預測模型,並不是初級形態的馬科夫決策過程或差分方程式。它可以是抽象的狀態,在經驗狀態中可以被抽取。由於預測是以整個行為為條件進行的,所以在選擇模型中,智能體也可以選擇停止某個策略,終結某種條件。有時候,使用旋律的遷移模型,可以預測進行了某個行動後的狀態。以日常生活為例,假設某人要去城裡,他/她會對前往市中心的距離、時間進行一個預測,對於超過某個閾值的行為(如步行10分鐘進城),就會進一步預測出一個狀態,如疲憊等。

有了這種能夠延伸行為的模型,其知識所表示的規模也可以非常的大。例如,可以根據一個行為,預測世界狀態,然後根據狀態再預測下一個行為......以此類推。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

總結經驗在AI研究中的發展歷程,Sutton表示,經驗是世界知識的基礎,人類本身是透過感知和行動來認識和影響世界的,經驗是人類獲得資訊、採取行動的唯一方式,而且是人類離不開的。遺憾的是,由於經驗過於主觀化和個人化,人類仍然不喜歡用經驗的方式去思考和表達。經驗對於人類太過陌生、反直覺、短暫、複雜。而經驗也是主觀、私人的,與他人交流,或進行驗證幾乎是不可能的。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

Sutton認為,經驗對於AI十分重要,有以下幾個原因。一是經驗來自於AI的日常運作過程,獲得這些經驗是無成本的、自動的。同時,AI領域有大量的數據用於計算,因此經驗提供了通往了解世界的道路,如果世界中的任何事實都是經驗性的,那麼AI可以從經驗中學習對世界的認識,並在經驗中進行驗證。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

總結而言,Sutton認為,過去70年的AI發展歷程中,AI逐漸在增加對經驗的重視-獲得經驗、根據經驗設定目標、並根據經驗獲得狀態和知識。在每一個階段,對於人類更陌生的經驗研究正在變得更加重要,而且其具有接地氣(Grounding)、可學習和可擴展的優勢。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

#03.未來AI 利用經驗的方法

Sutton認為,目前對於經驗利用方面,AI還未完成階段三和四,但是這種趨勢向前會越走越遠。 Sutton認為,將一切都歸於經驗,是通往真正AI的可行路徑。儘管非常具有挑戰性,但這是能夠理解資料流,實現智慧的圖像。最後,Sutton進一步凝煉重視感知運動經驗的四個階段,形成一句標語:#「數據驅動人工智慧,而經驗就是終極的數據。如果能利用好經驗,我們就可以更快速有力地推動人工智慧發展。」

##

以上是Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

<🎜>:泡泡膠模擬器無窮大 - 如何獲取和使用皇家鑰匙
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系統,解釋
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆樹的耳語 - 如何解鎖抓鉤
3 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1666
14
CakePHP 教程
1425
52
Laravel 教程
1325
25
PHP教程
1273
29
C# 教程
1252
24
C  中的chrono庫如何使用? C 中的chrono庫如何使用? Apr 28, 2025 pm 10:18 PM

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔,讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分,它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說,chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性,還提供了更高的精度和靈活性。讓我們從基礎開始,chrono庫主要包括以下幾個關鍵組件:std::chrono::system_clock:表示系統時鐘,用於獲取當前時間。 std::chron

如何理解C  中的DMA操作? 如何理解C 中的DMA操作? Apr 28, 2025 pm 10:09 PM

DMA在C 中是指DirectMemoryAccess,直接內存訪問技術,允許硬件設備直接與內存進行數據傳輸,不需要CPU干預。 1)DMA操作高度依賴於硬件設備和驅動程序,實現方式因係統而異。 2)直接訪問內存可能帶來安全風險,需確保代碼的正確性和安全性。 3)DMA可提高性能,但使用不當可能導致系統性能下降。通過實踐和學習,可以掌握DMA的使用技巧,在高速數據傳輸和實時信號處理等場景中發揮其最大效能。

怎樣在C  中處理高DPI顯示? 怎樣在C 中處理高DPI顯示? Apr 28, 2025 pm 09:57 PM

在C 中處理高DPI顯示可以通過以下步驟實現:1)理解DPI和縮放,使用操作系統API獲取DPI信息並調整圖形輸出;2)處理跨平台兼容性,使用如SDL或Qt的跨平台圖形庫;3)進行性能優化,通過緩存、硬件加速和動態調整細節級別來提升性能;4)解決常見問題,如模糊文本和界面元素過小,通過正確應用DPI縮放來解決。

C  中的實時操作系統編程是什麼? C 中的實時操作系統編程是什麼? Apr 28, 2025 pm 10:15 PM

C 在實時操作系統(RTOS)編程中表現出色,提供了高效的執行效率和精確的時間管理。 1)C 通過直接操作硬件資源和高效的內存管理滿足RTOS的需求。 2)利用面向對象特性,C 可以設計靈活的任務調度系統。 3)C 支持高效的中斷處理,但需避免動態內存分配和異常處理以保證實時性。 4)模板編程和內聯函數有助於性能優化。 5)實際應用中,C 可用於實現高效的日誌系統。

怎樣在C  中測量線程性能? 怎樣在C 中測量線程性能? Apr 28, 2025 pm 10:21 PM

在C 中測量線程性能可以使用標準庫中的計時工具、性能分析工具和自定義計時器。 1.使用庫測量執行時間。 2.使用gprof進行性能分析,步驟包括編譯時添加-pg選項、運行程序生成gmon.out文件、生成性能報告。 3.使用Valgrind的Callgrind模塊進行更詳細的分析,步驟包括運行程序生成callgrind.out文件、使用kcachegrind查看結果。 4.自定義計時器可靈活測量特定代碼段的執行時間。這些方法幫助全面了解線程性能,並優化代碼。

給MySQL表添加和刪除字段的操作步驟 給MySQL表添加和刪除字段的操作步驟 Apr 29, 2025 pm 04:15 PM

在MySQL中,添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column,刪除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段時,需指定位置以優化查詢性能和數據結構;刪除字段前需確認操作不可逆;使用在線DDL、備份數據、測試環境和低負載時間段修改表結構是性能優化和最佳實踐。

量化交易所排行榜2025 數字貨幣量化交易APP前十名推薦 量化交易所排行榜2025 數字貨幣量化交易APP前十名推薦 Apr 30, 2025 pm 07:24 PM

交易所內置量化工具包括:1. Binance(幣安):提供Binance Futures量化模塊,低手續費,支持AI輔助交易。 2. OKX(歐易):支持多賬戶管理和智能訂單路由,提供機構級風控。獨立量化策略平台有:3. 3Commas:拖拽式策略生成器,適用於多平台對沖套利。 4. Quadency:專業級算法策略庫,支持自定義風險閾值。 5. Pionex:內置16 預設策略,低交易手續費。垂直領域工具包括:6. Cryptohopper:雲端量化平台,支持150 技術指標。 7. Bitsgap:

deepseek官網是如何實現鼠標滾動事件穿透效果的? deepseek官網是如何實現鼠標滾動事件穿透效果的? Apr 30, 2025 pm 03:21 PM

如何實現鼠標滾動事件穿透效果?在我們瀏覽網頁時,經常會遇到一些特別的交互設計。比如在deepseek官網上,�...

See all articles