目錄
01. 背景:經驗對智慧發展的重要意義" >01. 背景:經驗對智慧發展的重要意義
02.經驗在AI發展的歷程" >02.經驗在AI發展的歷程
1.智能體(Agenthood)" >1.智能體(Agenthood)
2.獎勵(Reward)" >2.獎勵(Reward)
3.插曲:什麼是經驗" >3.插曲:什麼是經驗
4.經驗狀態(Experiential State)" >4.經驗狀態(Experiential State)
#5.預測性知識(Predictive Knowledge)" >#5.預測性知識(Predictive Knowledge)
#03.未來AI 利用經驗的方法" >#03.未來AI 利用經驗的方法
首頁 科技週邊 人工智慧 Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

Apr 09, 2023 am 10:01 AM
ai 發展 經驗

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

導讀:#強人工智慧的發展是近年來關注的議題。讓AI從人類的知覺和行為,而非單純的標註資料中學習,成為許多研究者關注的重點。其中,如何運用人類習得的日常生活經驗,啟發建構能夠適應不同環境,與外部世界互動的人工智慧這成為一些領域探索的新路。

被譽為強化學習之父的Richard Sutton近日提出了利用經驗啟發AI發展的思路。他將AI從利用數據到利用經驗的過程分為四個發展階段,提出了未來建構真正AI(Real AI)的發展方向。 2022年5月31日,Richard Sutton在2022北京智源大會上發表了題為“The Increasing Role of Sensorimotor Experience in AI”的主題演講,對利用經驗啟發AI發展的方法進行了總結和展望。

講者簡介:#理查德·薩頓(Richard Sutton),現代計算型強化學習創始人之一,是DeepMind 的傑出研究科學家,阿爾伯塔大學計算科學系教授,也是英國皇家學會、加拿大皇家學會、人工智慧促進會、阿爾伯塔機器智能研究所(AMII) 和CIFAR的研究員。

01. 背景:經驗對智慧發展的重要意義

Sutton認為,智能體與外在世界發生交互,向其發出動作,並接收感知(帶來的回饋)。這種涉及經驗的交互,是強化學習中正常的感知方式。也是讓智能體嘗試預測外在世界時所採用的正常途徑。然而,這種方法在監督學習中並不多見,而監督學習是目前最常見的機器學習類型。機器學習中並不涉及普通經驗(Ordinary Experience),模型也不會從不同於普通經驗的特殊訓練資料中學習。事實上,在運作時,監督學習系統根本不學習。

所以說,經驗是互動(帶來)的數據,是與外在世界溝通的途徑。經驗沒有任何意義,除非與其他經驗之間產生連結。當然,有一個例外:經由特殊訊號所表示獎勵。獎勵代表好的目標,智能體當然希望能最大化獎勵。在

演講中,Sutton提出了一個核心問題:智能最終是可以被什麼來解釋?是客觀的術語(Objective terms),還是經驗的術語(Experiential terms)?前者包含外在世界的狀態、目標、人、地點、關係、空間、動作、距離等不在智能體中的事物,後者則包含感知、動作、獎勵、時間步等智能體內在的事物。 Sutton認為,儘管研究者通常會在交流和寫論文時思考客觀的概念,但是現在應該更加關注智能體與外部世界互動過程中產生的經驗。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

為了進一步介紹經驗對於智能體的重要意義,Richard Sutton 提出,隨著經驗逐漸被重視,一共經歷了四個階段。分別為:智能體(Agenthood ),獎勵(Reward),經驗狀態(Experiential State),以及可預測知識(Predictive Knowledge)。經過這四個階段的發展,AI逐漸擁有經驗,變得更加實際、可學習且易於擴展。

#

02.經驗在AI發展的歷程

1.智能體(Agenthood)

 智能體的意思是擁有/獲得經驗(的AI)。可能令人驚訝的是,早期的AI系統確實沒有任何經驗。在人工智慧發展的早期階段(1954-1985年),大多數AI系統只是用來解決問題或回答問題,他們沒有感知能力,也不會行動。機器人是個例外,但傳統的系統只有啟動狀態和目標狀態,如同下圖要堆疊的積木塊。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

如果要達到適當的目標狀態,其解決方案就是一個行動序列,確保AI能夠從啟動狀態達到目標狀態。這其中沒有感知和行動的存在,因為整個外在世界是已知、確定、封閉的,所以並不需要讓AI感知和行動。研究者知道什麼事情會發生,所以只需要建立一個解決問題的計劃,讓AI來執行即可,人類知道這樣就能解決問題。

在過去30年的發展中,人工智慧的研究著重於建構智能體。這種轉變可以體現在這一點:人工智慧的標準教科書囊括了智能體的概念,將其作為基礎。例如,1995年版本的《人工智慧:一種現代的方法》中提到,全書的統一主題在於介紹智能體(Intelligent Agent)的概念。在這種視角下,AI的問題在於描述和建構智能體,並從環境中獲得認知,並採取行動。隨著研究的發展,標準、現代的方法是建構一個能夠和外在世界互動的智能體。 Sutton認為可以從這個視角看待AI。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

2.獎勵(Reward)

獎勵(Reward)是以經驗的形式來描述AI的目標。這也是目前提出的有效方法,能夠建構AI的所有目標。這也是Sutton與其合作者提出的方法。

獎勵被認為是目前較為充分的一種假說-智慧及其相關的能力都可以被理解為是服務於最大化獎勵的結果。所以有說法認為,獎勵對於智能體而言已經足夠了。

然而Sutton認為,這個想法是需要被挑戰的。獎勵並不足夠實現智慧。獎勵只是一個數字、一個標量,它並不足以解釋智能的目標。來自頭腦之外,僅用單一數字表達的目標,顯得太小、太還原,甚至太貶低(人類的目標)了。人類喜歡把目標想像得更宏大,如照顧家庭、拯救世界、世界和平、讓世界更美好。人類的目標比最大化快樂和舒適更為重要。

正如研究者發現獎勵並不是很好的建構目標的方法,研究者也發現了透過獎勵來建構目標的優勢。獎勵建構的目標太小,但是人們可以在其中取得進展——目標可以被良好、清晰地定義,且易於學習。這對於透過經驗建構目標而言反而是個挑戰。

Sutton認為,想像透過經驗來充分建構目標,這是有挑戰的。回顧歷史可以看到,AI原本也不是對獎勵有興趣的,即使是現在也是如此。所以,不管是早期的問題解決系統,還是當前最新版的AI教科書,其依然將目標定義為需要達到的世界狀態(World State),而非經驗性的(定義)。這種目標可能仍然是特定的一系列“積木”,而不是一種需要達到的感知結果。

#

當然,最新的教科書中已經有章節提到強化學習,並提及這些AI使用的是獎勵機制。此外,建構目標的過程中,獎勵已是一種常規的做法,可以使用馬爾科夫決策過程來實現。對於批評獎勵不能夠充分建構目標的研究者(如Yann LeCun)來說,獎勵已經是智慧這塊「蛋糕」頂端的「櫻桃」了,它很重要。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

在接下來的兩個階段,Sutton將介紹如何從經驗的角度來理解外在世界,但在此之前,他將先介紹經驗指涉的是什麼。

3.插曲:什麼是經驗

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

如下圖的序列(非真實資料)所示,當時間步啟動的時候,系統會得到感知訊號,也會發出訊號和行動。所以感知訊號可能會引起一些動作,而這些動作會造成下一個感知訊號。在任何時候,系統都需要專注於專注於最近的行動和最近的訊號,這樣才能決定接下來會發生什麼,該怎麼做。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

如圖所示,這是一個智慧型體執行程式的輸入輸出訊號陣列。第一列是時間步,每一步可認為是0.1秒或0.01秒的瞬間。行動訊號列則採用二級表示,以灰白兩色表示。之後是感知訊號列,其中前四列是二進位值(也使用灰白兩色),後四列則採用0-3的四種取值,以紅黃藍綠四種顏色表示,最後一列則是連續變量,代表獎勵。在實驗中,研究者將數字去除,只留下顏色,以便在其中尋找模式。 Sutton認為,經驗,是指對感覺-運動經驗的數據中發現的模式所產生的知識和理解。

在本案例中,Sutton列舉了四個典型的模式:

1.行動的最後一位,和緊接著的感知訊號是相同的。如果某一時間步的行動是白色的,其後的第一個感知訊號也是白色,灰色亦然。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

2.當出現紅像素時,緊接在後的一個時間步是綠色像素。擴大資料範圍後可以發現,紅綠像素先後出現後,隔一個時間步驟會出現藍色像素。

3.資料的最後三列往往會出現一長串同樣顏色,保持不變。一種顏色一旦開始,會持續多個時間週期,最終形成條紋。如很長的一串紅色、綠色、藍色等。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

4.如果展示AI預測的特定感知數據,很多時候這是無法立刻被觀察到的,因此在本資料中增加回傳值(Return),其代表著對將會到來的獎勵的預測。框中的綠色條帶代表了隨後的獎賞中,綠色會比紅色多。這代表著當前對於獎勵的預測。

#

特殊的陰影區域則表示等待函數。等待函數的陰影區域會有綠色和紅色的條帶。在這裡,研究者將越早回歸的,帶有顏色獎勵給予更高的權重。當隨著返回值根據時間移動時,就可以看到預測結果和實際獎勵之間的顏色和值的對應變化,這種返回值便是一種預測——其可以從經驗中學習到。

Sutton認為,這種回傳值本質上並​​不是從已經發生的事件中學習的,而是從時間差訊號中學到的。其中最重要的訊號就是價值函數。在本例中,返回值實際上是一個價值函數,代表的是對於未來獎勵的總和。如果想要一個一般形式的,複雜的,能夠指涉未來值的函數,可採用名為一般價值函數(General Value Functions GVFs)的方法。一般價值函數包括了各種訊號,不僅僅是獎勵;可以是任何時間包絡形式,而不僅僅是指數。一般價值函數也可以包括任何隊列的策略,可以預測數量非常多,範圍很廣的事情。當然,Sutton認為,透過計算進行預測,其難易度取決於被預測對象的形式。當使用一般價值函數進行預測時,被預測物件的表達形式需要被設計成易於學習的形式,且需要很高的計算效率。

4.經驗狀態(Experiential State)

#提到「狀態」這個詞,很多研究會提到的是世界狀態(World State),這是一個屬於客觀概念之下的字。狀態指的是客觀世界的一種符號化的描述(反映),能夠和世界本身的情況匹配。例如,對於積木塊的位置資訊(C在A上)等。在最近的一段時間,一些研究者(如Judea Pearl)提出了機率圖模型,其表示的是世界狀態的機率分佈。有些事件,如「外面下雨,草地是否是濕的?」等,這些事件之間都存在著機率關係。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

#另一種狀態是信念狀態(Belief State) ,在這種概念中,狀態是一種機率分佈,表示的是離散世界的狀態,其對應的方法被稱為POMDPs(Partially observable Markov decision process)——存在隱藏狀態變量,其中部分是可觀察到的,可以使用馬爾科夫決策過程進行建模。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

以上的方法都是客觀的狀態,與經驗相距甚遠,是研究者一開始嘗試描述世界狀態的方法。

而與之不同的,是經驗狀態。 Sutton認為,經驗狀態指的是整個世界的狀態是根據經驗來定義。經驗狀態是過去經驗的總結,能夠預測並控制未來將會獲得的經驗。

這種建構過去經驗,預測未來的做法,在研究中已有體現。例如,強化學習任務之一——雅達利遊戲中,研究者會用最後四幀的影片建構經驗狀態,然後預測之後的行為。 LSTM網路中的一些方法,也可以被認為是從某種經驗狀態中進行預測。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

回看經驗狀態,它是可以遞歸更新的。經驗狀態是整個過去發生事情總結的函數,由於AI需要每時每刻訪問經驗狀態,實現對接下來發生事件的預測,所以經驗狀態的更新是遞歸式的:當前時刻只訪問上一時刻的經驗狀態,而上一時刻經驗狀態是過去所有發生過的事件的總結。到了下一個時刻,也只造訪此時此刻的經驗狀態,而這個經驗狀態也是對過去發生的所有事件的總結。

下圖顯示了智能體經驗狀態的建構過程。其中,紅色箭頭顯示智能體的基礎工作訊號,包括:感覺、行動、獎勵等。藍箭頭標註的是經驗狀態(表徵)的方向,從感知中輸出,其負責對每個時間步更新其經驗狀態。更新的狀態會被用來為行動制定策略,或進行其他更新。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

#5.預測性知識(Predictive Knowledge)

知識,如“喬拜登是美國總統”,“艾菲爾鐵塔在巴黎”等,都是對於外部客觀世界的一種描述,並不是經驗性的。但是,類似於「做某事預計花費X小時」這類知識,是經驗知識。經驗知識和客觀知識之間存在著巨大的差異,這也是AI研究具有挑戰性的一點。

過去的AI研究傾向於將知識視為一種客觀項,儘管近期已經有一些研究從經驗的角度來看待問題。早期的AI系統沒有經驗,也無法進行預測。而更現代一些的AI將知識視為客觀的存在。較先進的是機率圖模型,但是很多時候其研究的是兩件同時發生的事情之間的機率,而預測面向的應該是一連串序列事件。

基於對序列事件的預測是具有明確語意屬性的知識。如果某事情被預測會發生,AI就可以將預測和實際結果進行比較。而這種預測模型,可以被認為是一種新的世界知識,也就是預測性知識。而在預測性知識中,Sutton認為最前沿的就是通用價值函數(General Value Function)和選擇模型(Option Model)。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

Sutton 將世界知識分成兩類,一是關於世界狀態的知識;二是關於世界狀態轉換的知識。有關世界狀態轉換知識的案例是世界預測模型。此處的的世界預測模型,並不是初級形態的馬科夫決策過程或差分方程式。它可以是抽象的狀態,在經驗狀態中可以被抽取。由於預測是以整個行為為條件進行的,所以在選擇模型中,智能體也可以選擇停止某個策略,終結某種條件。有時候,使用旋律的遷移模型,可以預測進行了某個行動後的狀態。以日常生活為例,假設某人要去城裡,他/她會對前往市中心的距離、時間進行一個預測,對於超過某個閾值的行為(如步行10分鐘進城),就會進一步預測出一個狀態,如疲憊等。

有了這種能夠延伸行為的模型,其知識所表示的規模也可以非常的大。例如,可以根據一個行為,預測世界狀態,然後根據狀態再預測下一個行為......以此類推。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

總結經驗在AI研究中的發展歷程,Sutton表示,經驗是世界知識的基礎,人類本身是透過感知和行動來認識和影響世界的,經驗是人類獲得資訊、採取行動的唯一方式,而且是人類離不開的。遺憾的是,由於經驗過於主觀化和個人化,人類仍然不喜歡用經驗的方式去思考和表達。經驗對於人類太過陌生、反直覺、短暫、複雜。而經驗也是主觀、私人的,與他人交流,或進行驗證幾乎是不可能的。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

Sutton認為,經驗對於AI十分重要,有以下幾個原因。一是經驗來自於AI的日常運作過程,獲得這些經驗是無成本的、自動的。同時,AI領域有大量的數據用於計算,因此經驗提供了通往了解世界的道路,如果世界中的任何事實都是經驗性的,那麼AI可以從經驗中學習對世界的認識,並在經驗中進行驗證。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

總結而言,Sutton認為,過去70年的AI發展歷程中,AI逐漸在增加對經驗的重視-獲得經驗、根據經驗設定目標、並根據經驗獲得狀態和知識。在每一個階段,對於人類更陌生的經驗研究正在變得更加重要,而且其具有接地氣(Grounding)、可學習和可擴展的優勢。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

#03.未來AI 利用經驗的方法

Sutton認為,目前對於經驗利用方面,AI還未完成階段三和四,但是這種趨勢向前會越走越遠。 Sutton認為,將一切都歸於經驗,是通往真正AI的可行路徑。儘管非常具有挑戰性,但這是能夠理解資料流,實現智慧的圖像。最後,Sutton進一步凝煉重視感知運動經驗的四個階段,形成一句標語:#「數據驅動人工智慧,而經驗就是終極的數據。如果能利用好經驗,我們就可以更快速有力地推動人工智慧發展。」

##

以上是Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

大宗交易的虛擬貨幣交易平台排行榜top10最新發布 大宗交易的虛擬貨幣交易平台排行榜top10最新發布 Apr 22, 2025 am 08:18 AM

選擇大宗交易平台時應考慮以下因素:1. 流動性:優先選擇日均交易量超50億美元的平台。 2. 合規性:查看平台是否持有美國FinCEN、歐盟MiCA等牌照。 3. 安全性:冷錢包存儲比例和保險機制是關鍵指標。 4. 服務能力:是否提供專屬客戶經理和定制化交易工具。

數字貨幣交易所App前十名蘋果版下載入口匯總 數字貨幣交易所App前十名蘋果版下載入口匯總 Apr 22, 2025 am 09:27 AM

提供各種複雜的交易工具和市場分析。覆蓋 100 多個國家,日均衍生品交易量超 300 億美元,支持 300 多個交易對與 200 倍槓桿,技術實力強大,擁有龐大的全球用戶基礎,提供專業的交易平台、安全存儲解決方案以及豐富的交易對。

排名前十的虛擬貨幣交易app有哪些 十大數字貨幣交易所平台推薦 排名前十的虛擬貨幣交易app有哪些 十大數字貨幣交易所平台推薦 Apr 22, 2025 pm 01:12 PM

2025年安全的數字貨幣交易所排名前十依次為:1. Binance,2. OKX,3. gate.io,4. Coinbase,5. Kraken,6. Huobi,7. Bitfinex,8. KuCoin,9. Bybit,10. Bitstamp,這些平台均採用了多層次的安全措施,包括冷熱錢包分離、多重簽名技術以及24/7的監控系統,確保用戶資金的安全。

穩定幣有哪些?穩定幣如何交易? 穩定幣有哪些?穩定幣如何交易? Apr 22, 2025 am 10:12 AM

常見的穩定幣有:1. 泰達幣(USDT),由Tether發行,與美元掛鉤,應用廣泛但透明性曾受質疑;2. 美元幣(USDC),由Circle和Coinbase發行,透明度高,受機構青睞;3. 戴幣(DAI),由MakerDAO發行,去中心化,DeFi領域受歡迎;4. 幣安美元(BUSD),由幣安和Paxos合作,交易和支付表現出色;5. 真實美元(TUSD),由TrustTo

目前有多少穩定幣交易所?穩定幣種類有多少? 目前有多少穩定幣交易所?穩定幣種類有多少? Apr 22, 2025 am 10:09 AM

截至2025年,穩定幣交易所數量約為千家。 1. 法定貨幣支持的穩定幣包括USDT、USDC等。 2. 加密貨幣支持的穩定幣如DAI、sUSD。 3. 算法穩定幣如TerraUSD。 4. 還有混合型穩定幣。

幣圈十大交易所有哪些 最新幣圈app推薦 幣圈十大交易所有哪些 最新幣圈app推薦 Apr 24, 2025 am 11:57 AM

選擇可靠的交易所至關重要,Binance、OKX、Gate.io等十大交易所各具特色,CoinGecko、Crypto.com等新app也值得關注。

DLC是什麼幣 DLC幣前景怎麼樣 DLC是什麼幣 DLC幣前景怎麼樣 Apr 24, 2025 pm 12:03 PM

DLC幣是基於區塊鏈的加密貨幣,旨在提供高效、安全的交易平台,支持智能合約和跨鏈技術,適用於金融和支付領域。

2025下一個千倍幣可能有哪些 2025下一個千倍幣可能有哪些 Apr 24, 2025 pm 01:45 PM

截至2025年4月,有七个加密货币项目被认为具有显著增长潜力:1. Filecoin(FIL)通过分布式存储网络实现快速发展;2. Aptos(APT)以高性能Layer 1公链吸引DApp开发者;3. Polygon(MATIC)提升以太坊网络性能;4. Chainlink(LINK)作为去中心化预言机网络满足智能合约需求;5. Avalanche(AVAX)以快速交易和

See all articles