Richard Sutton：經驗是AI的終極數據，四個階段通往真正AI的發展之路-人工智慧-PHP中文網

01. 背景：經驗對智慧發展的重要意義" >01. 背景：經驗對智慧發展的重要意義

02.經驗在AI發展的歷程" >02.經驗在AI發展的歷程

1.智能體（Agenthood）" >1.智能體（Agenthood）

2.獎勵（Reward）" >2.獎勵（Reward）

3.插曲：什麼是經驗" >3.插曲：什麼是經驗

4.經驗狀態（Experiential State）" >4.經驗狀態（Experiential State）

#5.預測性知識（Predictive Knowledge）" >#5.預測性知識（Predictive Knowledge）

#03.未來AI 利用經驗的方法" >#03.未來AI 利用經驗的方法

首頁

科技週邊

人工智慧

Richard Sutton：經驗是AI的終極數據，四個階段通往真正AI的發展之路

PHPz

Apr 09, 2023 am 10:01 AM

ai 發展經驗

導讀：#強人工智慧的發展是近年來關注的議題。讓AI從人類的知覺和行為，而非單純的標註資料中學習，成為許多研究者關注的重點。其中，如何運用人類習得的日常生活經驗，啟發建構能夠適應不同環境，與外部世界互動的人工智慧這成為一些領域探索的新路。

被譽為強化學習之父的Richard Sutton近日提出了利用經驗啟發AI發展的思路。他將AI從利用數據到利用經驗的過程分為四個發展階段，提出了未來建構真正AI（Real AI）的發展方向。 2022年5月31日，Richard Sutton在2022北京智源大會上發表了題為“The Increasing Role of Sensorimotor Experience in AI”的主題演講，對利用經驗啟發AI發展的方法進行了總結和展望。

講者簡介：#理查德·薩頓(Richard Sutton)，現代計算型強化學習創始人之一，是DeepMind 的傑出研究科學家，阿爾伯塔大學計算科學系教授，也是英國皇家學會、加拿大皇家學會、人工智慧促進會、阿爾伯塔機器智能研究所（AMII）和CIFAR的研究員。

01. 背景：經驗對智慧發展的重要意義

Sutton認為，智能體與外在世界發生交互，向其發出動作，並接收感知（帶來的回饋）。這種涉及經驗的交互，是強化學習中正常的感知方式。也是讓智能體嘗試預測外在世界時所採用的正常途徑。然而，這種方法在監督學習中並不多見，而監督學習是目前最常見的機器學習類型。機器學習中並不涉及普通經驗（Ordinary Experience），模型也不會從不同於普通經驗的特殊訓練資料中學習。事實上，在運作時，監督學習系統根本不學習。

所以說，經驗是互動（帶來）的數據，是與外在世界溝通的途徑。經驗沒有任何意義，除非與其他經驗之間產生連結。當然，有一個例外：經由特殊訊號所表示獎勵。獎勵代表好的目標，智能體當然希望能最大化獎勵。在

演講中，Sutton提出了一個核心問題：智能最終是可以被什麼來解釋？是客觀的術語（Objective terms），還是經驗的術語（Experiential terms）？前者包含外在世界的狀態、目標、人、地點、關係、空間、動作、距離等不在智能體中的事物，後者則包含感知、動作、獎勵、時間步等智能體內在的事物。 Sutton認為，儘管研究者通常會在交流和寫論文時思考客觀的概念，但是現在應該更加關注智能體與外部世界互動過程中產生的經驗。

Richard Sutton：經驗是AI的終極數據，四個階段通往真正AI的發展之路

為了進一步介紹經驗對於智能體的重要意義，Richard Sutton 提出，隨著經驗逐漸被重視，一共經歷了四個階段。分別為：智能體（Agenthood ），獎勵（Reward），經驗狀態（Experiential State），以及可預測知識（Predictive Knowledge）。經過這四個階段的發展，AI逐漸擁有經驗，變得更加實際、可學習且易於擴展。

02.經驗在AI發展的歷程

1.智能體（Agenthood）

智能體的意思是擁有/獲得經驗（的AI）。可能令人驚訝的是，早期的AI系統確實沒有任何經驗。在人工智慧發展的早期階段（1954-1985年），大多數AI系統只是用來解決問題或回答問題，他們沒有感知能力，也不會行動。機器人是個例外，但傳統的系統只有啟動狀態和目標狀態，如同下圖要堆疊的積木塊。

Richard Sutton：經驗是AI的終極數據，四個階段通往真正AI的發展之路

如果要達到適當的目標狀態，其解決方案就是一個行動序列，確保AI能夠從啟動狀態達到目標狀態。這其中沒有感知和行動的存在，因為整個外在世界是已知、確定、封閉的，所以並不需要讓AI感知和行動。研究者知道什麼事情會發生，所以只需要建立一個解決問題的計劃，讓AI來執行即可，人類知道這樣就能解決問題。

在過去30年的發展中，人工智慧的研究著重於建構智能體。這種轉變可以體現在這一點：人工智慧的標準教科書囊括了智能體的概念，將其作為基礎。例如，1995年版本的《人工智慧：一種現代的方法》中提到，全書的統一主題在於介紹智能體（Intelligent Agent）的概念。在這種視角下，AI的問題在於描述和建構智能體，並從環境中獲得認知，並採取行動。隨著研究的發展，標準、現代的方法是建構一個能夠和外在世界互動的智能體。 Sutton認為可以從這個視角看待AI。

Richard Sutton：經驗是AI的終極數據，四個階段通往真正AI的發展之路

2.獎勵（Reward）

獎勵（Reward）是以經驗的形式來描述AI的目標。這也是目前提出的有效方法，能夠建構AI的所有目標。這也是Sutton與其合作者提出的方法。

獎勵被認為是目前較為充分的一種假說－智慧及其相關的能力都可以被理解為是服務於最大化獎勵的結果。所以有說法認為，獎勵對於智能體而言已經足夠了。

然而Sutton認為，這個想法是需要被挑戰的。獎勵並不足夠實現智慧。獎勵只是一個數字、一個標量，它並不足以解釋智能的目標。來自頭腦之外，僅用單一數字表達的目標，顯得太小、太還原，甚至太貶低（人類的目標）了。人類喜歡把目標想像得更宏大，如照顧家庭、拯救世界、世界和平、讓世界更美好。人類的目標比最大化快樂和舒適更為重要。

正如研究者發現獎勵並不是很好的建構目標的方法，研究者也發現了透過獎勵來建構目標的優勢。獎勵建構的目標太小，但是人們可以在其中取得進展——目標可以被良好、清晰地定義，且易於學習。這對於透過經驗建構目標而言反而是個挑戰。

Sutton認為，想像透過經驗來充分建構目標，這是有挑戰的。回顧歷史可以看到，AI原本也不是對獎勵有興趣的，即使是現在也是如此。所以，不管是早期的問題解決系統，還是當前最新版的AI教科書，其依然將目標定義為需要達到的世界狀態（World State），而非經驗性的（定義）。這種目標可能仍然是特定的一系列“積木”，而不是一種需要達到的感知結果。

當然，最新的教科書中已經有章節提到強化學習，並提及這些AI使用的是獎勵機制。此外，建構目標的過程中，獎勵已是一種常規的做法，可以使用馬爾科夫決策過程來實現。對於批評獎勵不能夠充分建構目標的研究者（如Yann LeCun）來說，獎勵已經是智慧這塊「蛋糕」頂端的「櫻桃」了，它很重要。

Richard Sutton：經驗是AI的終極數據，四個階段通往真正AI的發展之路

在接下來的兩個階段，Sutton將介紹如何從經驗的角度來理解外在世界，但在此之前，他將先介紹經驗指涉的是什麼。

3.插曲：什麼是經驗

Richard Sutton：經驗是AI的終極數據，四個階段通往真正AI的發展之路

如下圖的序列（非真實資料）所示，當時間步啟動的時候，系統會得到感知訊號，也會發出訊號和行動。所以感知訊號可能會引起一些動作，而這些動作會造成下一個感知訊號。在任何時候，系統都需要專注於專注於最近的行動和最近的訊號，這樣才能決定接下來會發生什麼，該怎麼做。

Richard Sutton：經驗是AI的終極數據，四個階段通往真正AI的發展之路

如圖所示，這是一個智慧型體執行程式的輸入輸出訊號陣列。第一列是時間步，每一步可認為是0.1秒或0.01秒的瞬間。行動訊號列則採用二級表示，以灰白兩色表示。之後是感知訊號列，其中前四列是二進位值（也使用灰白兩色），後四列則採用0-3的四種取值，以紅黃藍綠四種顏色表示，最後一列則是連續變量，代表獎勵。在實驗中，研究者將數字去除，只留下顏色，以便在其中尋找模式。 Sutton認為，經驗，是指對感覺-運動經驗的數據中發現的模式所產生的知識和理解。

在本案例中，Sutton列舉了四個典型的模式：

1.行動的最後一位，和緊接著的感知訊號是相同的。如果某一時間步的行動是白色的，其後的第一個感知訊號也是白色，灰色亦然。

Richard Sutton：經驗是AI的終極數據，四個階段通往真正AI的發展之路

2.當出現紅像素時，緊接在後的一個時間步是綠色像素。擴大資料範圍後可以發現，紅綠像素先後出現後，隔一個時間步驟會出現藍色像素。

3.資料的最後三列往往會出現一長串同樣顏色，保持不變。一種顏色一旦開始，會持續多個時間週期，最終形成條紋。如很長的一串紅色、綠色、藍色等。

Richard Sutton：經驗是AI的終極數據，四個階段通往真正AI的發展之路

4.如果展示AI預測的特定感知數據，很多時候這是無法立刻被觀察到的，因此在本資料中增加回傳值（Return），其代表著對將會到來的獎勵的預測。框中的綠色條帶代表了隨後的獎賞中，綠色會比紅色多。這代表著當前對於獎勵的預測。

特殊的陰影區域則表示等待函數。等待函數的陰影區域會有綠色和紅色的條帶。在這裡，研究者將越早回歸的，帶有顏色獎勵給予更高的權重。當隨著返回值根據時間移動時，就可以看到預測結果和實際獎勵之間的顏色和值的對應變化，這種返回值便是一種預測——其可以從經驗中學習到。

Sutton認為，這種回傳值本質上並不是從已經發生的事件中學習的，而是從時間差訊號中學到的。其中最重要的訊號就是價值函數。在本例中，返回值實際上是一個價值函數，代表的是對於未來獎勵的總和。如果想要一個一般形式的，複雜的，能夠指涉未來值的函數，可採用名為一般價值函數（General Value Functions GVFs）的方法。一般價值函數包括了各種訊號，不僅僅是獎勵；可以是任何時間包絡形式，而不僅僅是指數。一般價值函數也可以包括任何隊列的策略，可以預測數量非常多，範圍很廣的事情。當然，Sutton認為，透過計算進行預測，其難易度取決於被預測對象的形式。當使用一般價值函數進行預測時，被預測物件的表達形式需要被設計成易於學習的形式，且需要很高的計算效率。

4.經驗狀態（Experiential State）

#提到「狀態」這個詞，很多研究會提到的是世界狀態（World State），這是一個屬於客觀概念之下的字。狀態指的是客觀世界的一種符號化的描述（反映），能夠和世界本身的情況匹配。例如，對於積木塊的位置資訊（C在A上）等。在最近的一段時間，一些研究者（如Judea Pearl）提出了機率圖模型，其表示的是世界狀態的機率分佈。有些事件，如「外面下雨，草地是否是濕的？」等，這些事件之間都存在著機率關係。

Richard Sutton：經驗是AI的終極數據，四個階段通往真正AI的發展之路

#另一種狀態是信念狀態(Belief State），在這種概念中，狀態是一種機率分佈，表示的是離散世界的狀態，其對應的方法被稱為POMDPs（Partially observable Markov decision process）——存在隱藏狀態變量，其中部分是可觀察到的，可以使用馬爾科夫決策過程進行建模。

Richard Sutton：經驗是AI的終極數據，四個階段通往真正AI的發展之路

以上的方法都是客觀的狀態，與經驗相距甚遠，是研究者一開始嘗試描述世界狀態的方法。

而與之不同的，是經驗狀態。 Sutton認為，經驗狀態指的是整個世界的狀態是根據經驗來定義。經驗狀態是過去經驗的總結，能夠預測並控制未來將會獲得的經驗。

這種建構過去經驗，預測未來的做法，在研究中已有體現。例如，強化學習任務之一——雅達利遊戲中，研究者會用最後四幀的影片建構經驗狀態，然後預測之後的行為。 LSTM網路中的一些方法，也可以被認為是從某種經驗狀態中進行預測。

Richard Sutton：經驗是AI的終極數據，四個階段通往真正AI的發展之路

回看經驗狀態，它是可以遞歸更新的。經驗狀態是整個過去發生事情總結的函數，由於AI需要每時每刻訪問經驗狀態，實現對接下來發生事件的預測，所以經驗狀態的更新是遞歸式的：當前時刻只訪問上一時刻的經驗狀態，而上一時刻經驗狀態是過去所有發生過的事件的總結。到了下一個時刻，也只造訪此時此刻的經驗狀態，而這個經驗狀態也是對過去發生的所有事件的總結。

下圖顯示了智能體經驗狀態的建構過程。其中，紅色箭頭顯示智能體的基礎工作訊號，包括：感覺、行動、獎勵等。藍箭頭標註的是經驗狀態（表徵）的方向，從感知中輸出，其負責對每個時間步更新其經驗狀態。更新的狀態會被用來為行動制定策略，或進行其他更新。

Richard Sutton：經驗是AI的終極數據，四個階段通往真正AI的發展之路

#5.預測性知識（Predictive Knowledge）

知識，如“喬拜登是美國總統”，“艾菲爾鐵塔在巴黎”等，都是對於外部客觀世界的一種描述，並不是經驗性的。但是，類似於「做某事預計花費X小時」這類知識，是經驗知識。經驗知識和客觀知識之間存在著巨大的差異，這也是AI研究具有挑戰性的一點。

過去的AI研究傾向於將知識視為一種客觀項，儘管近期已經有一些研究從經驗的角度來看待問題。早期的AI系統沒有經驗，也無法進行預測。而更現代一些的AI將知識視為客觀的存在。較先進的是機率圖模型，但是很多時候其研究的是兩件同時發生的事情之間的機率，而預測面向的應該是一連串序列事件。

基於對序列事件的預測是具有明確語意屬性的知識。如果某事情被預測會發生，AI就可以將預測和實際結果進行比較。而這種預測模型，可以被認為是一種新的世界知識，也就是預測性知識。而在預測性知識中，Sutton認為最前沿的就是通用價值函數（General Value Function）和選擇模型（Option Model）。

Richard Sutton：經驗是AI的終極數據，四個階段通往真正AI的發展之路

Sutton 將世界知識分成兩類，一是關於世界狀態的知識；二是關於世界狀態轉換的知識。有關世界狀態轉換知識的案例是世界預測模型。此處的的世界預測模型，並不是初級形態的馬科夫決策過程或差分方程式。它可以是抽象的狀態，在經驗狀態中可以被抽取。由於預測是以整個行為為條件進行的，所以在選擇模型中，智能體也可以選擇停止某個策略，終結某種條件。有時候，使用旋律的遷移模型，可以預測進行了某個行動後的狀態。以日常生活為例，假設某人要去城裡，他/她會對前往市中心的距離、時間進行一個預測，對於超過某個閾值的行為（如步行10分鐘進城），就會進一步預測出一個狀態，如疲憊等。

有了這種能夠延伸行為的模型，其知識所表示的規模也可以非常的大。例如，可以根據一個行為，預測世界狀態，然後根據狀態再預測下一個行為......以此類推。

Richard Sutton：經驗是AI的終極數據，四個階段通往真正AI的發展之路

總結經驗在AI研究中的發展歷程，Sutton表示，經驗是世界知識的基礎，人類本身是透過感知和行動來認識和影響世界的，經驗是人類獲得資訊、採取行動的唯一方式，而且是人類離不開的。遺憾的是，由於經驗過於主觀化和個人化，人類仍然不喜歡用經驗的方式去思考和表達。經驗對於人類太過陌生、反直覺、短暫、複雜。而經驗也是主觀、私人的，與他人交流，或進行驗證幾乎是不可能的。

Richard Sutton：經驗是AI的終極數據，四個階段通往真正AI的發展之路

Sutton認為，經驗對於AI十分重要，有以下幾個原因。一是經驗來自於AI的日常運作過程，獲得這些經驗是無成本的、自動的。同時，AI領域有大量的數據用於計算，因此經驗提供了通往了解世界的道路，如果世界中的任何事實都是經驗性的，那麼AI可以從經驗中學習對世界的認識，並在經驗中進行驗證。

Richard Sutton：經驗是AI的終極數據，四個階段通往真正AI的發展之路

總結而言，Sutton認為，過去70年的AI發展歷程中，AI逐漸在增加對經驗的重視－獲得經驗、根據經驗設定目標、並根據經驗獲得狀態和知識。在每一個階段，對於人類更陌生的經驗研究正在變得更加重要，而且其具有接地氣（Grounding）、可學習和可擴展的優勢。

Richard Sutton：經驗是AI的終極數據，四個階段通往真正AI的發展之路

#03.未來AI 利用經驗的方法

Sutton認為，目前對於經驗利用方面，AI還未完成階段三和四，但是這種趨勢向前會越走越遠。 Sutton認為，將一切都歸於經驗，是通往真正AI的可行路徑。儘管非常具有挑戰性，但這是能夠理解資料流，實現智慧的圖像。最後，Sutton進一步凝煉重視感知運動經驗的四個階段，形成一句標語：#「數據驅動人工智慧，而經驗就是終極的數據。如果能利用好經驗，我們就可以更快速有力地推動人工智慧發展。」

以上是Richard Sutton：經驗是AI的終極數據，四個階段通往真正AI的發展之路的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn