隨著媒體狂炒Sora,OpenAI的介紹資料中稱Sora是「world simulator」,世界模型這個字又進入視野,但很少有文章來介紹世界模型。
這裡回顧一下什麼是世界模型,以及討論Sora是不是world simulator。
#當AI領域中講到世界/world、環境/environment這個字的時候,通常是為了與智能體/agent加以區分。
研究智能體最多的領域,一個是強化學習,一個是機器人領域。
因此可以看到,world models、world modeling最早也最常出現在機器人領域的論文中。
而今天world models這個詞影響最大的,可能是Jurgen 2018年放到arxiv的這篇以“world models”命名的文章,該文章最終以“Recurrent World Models Facilitate Policy Evolution」的title發表在NeurIPS'18。
論文中並沒有定義什麼是World models,而是類比了認知科學中人腦的mental model,引用了1971年的文獻。
mental model是人腦對週邊世界的鏡像
Wikipedia中介紹的mental model,很明確的指出其可能參與認知、推理、決策過程。並且說到mental model主要包含mental representations和mental simulation兩部分。
an internal representation of external reality, hypothesized to play a major role in cognition, reasoning and decision-making. The term was coined by Kenneth Craik in 1943 who sugginded thats small-scale models" of reality that it uses to anticipate events.
到這裡還是說得雲霧繚繞,那麼論文中的結構圖一目了然的說明了什麼是一個world model。
圖中縱向V->z是觀測的低維度表徵,用VAE實現,水平的M->h-> M->h是序列的預測下一個時刻的表徵,用RNN實現,這兩部分加起來就是World Model。
也就是說,World model的主要包含狀態表徵和轉移模型,這也剛好對應mental representations和mental simulation。
看到上面這張圖可能會想,這不是所有的序列預測都是world model了?
其實熟悉強化學習的同學能一眼看出來,這張圖的結構是錯誤(不完整)的,而真正的結構是下面這張圖,RNN的輸入不僅是z,還有動作action,這就不是通常的序列預測了(加一個動作會很不一樣嗎?是的,加入動作可以讓資料分佈自由變化,帶來巨大的挑戰)。
Jurgen的這篇論文屬於強化學習領域。
那麼,強化學習裡不是有很多model-based RL嗎,其中的model跟world model有什麼差別?答案是沒有差別,就是同一個東西。 Jurgen先說了一段
基本意思就是,不管有多少model-based RL工作,我是RNN先驅,RNN來做model是我發明的,我就是要搞。
在Jurgen文章的早期版本中,也說到很多model-based RL,雖然學了model,但並沒有完全在model中訓練RL。
#沒有完全在model中訓練RL,實際上並不是model-based RL的model有什麼區別,而是model-based RL這個方向長久以來的無奈:model不夠準確,完全在model裡訓練的RL效果很差。這一問題直到近幾年才解決。
聰明的Sutton在很久以前就意識到model不夠準確的問題。在1990年提出Dyna框架的論文Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming(發表在第一次從workshop變成conference的ICML上),管這個model叫action model,強調預測action執行的結果。
RL一邊從真實資料中學習(第3行),一邊從model中學習(第5行),以防model不準確造成策略學不好。
可以看到,world model對於決策十分重要。如果能獲得準確的world model,那就可以透過在world model中就反覆試錯,找到現實最優決策。
這就是world model的核心作用:反事實推理/Counterfactual reasoning , 也就是說,即使對於資料中沒有見過的決策,在world model中都能推理出決策的結果。
了解因果推理的同學會很熟悉反事實推理這個詞,在圖靈獎得主Judea Pearl的科普讀物The book of why中繪製了一副因果階梯,最下層是「關聯」,也就是今天大部分預測模型主要在做的事;中間層是「幹預」,強化學習中的探索就是典型的干預;最上層是反事實,透過想像回答what if問題。 Judea為反事實推理繪製的示意圖,是科學家在大腦中想像,這與Jurgen在論文中使用的示意圖異曲同工。
左:Jurgen論文中的世界模型示意圖。右:Judea書中的因果階梯。
到這裡我們可以總結,AI研究者對world model的追求,是試圖超越數據,進行反事實推理,回答what if問題能力的追求。這是一種人類天然具備,而目前的AI還做得很差的能力。一旦產生突破,AI決策能力會大幅提升,實現全自動駕駛等場景應用。
#simulator這個詞更多出現在工程領域,起作用與world model一樣,嘗試那些難以在現實世界實施的高成本高風險試誤。 OpenAI似乎希望重新組成一個詞組,但意思不變。
Sora產生的視頻,僅能透過模糊的提示詞引導,而難以進行準確的操控。因此它更多的是視頻工具,而難以作為反事實推理的工具去準確的回答what if問題。
甚至難以評價Sora的生成能力有多強,因為完全不清楚demo的影片與訓練資料的差異有多大。
更讓人失望的是,這些demo呈現出Sora並沒有準確的學到物理法則。已經看到有人指出了Sora生成視頻中不符合物理規律之處 [ OpenAI 發布文生視頻模型 Sora,AI 能理解運動中的物理世界,這是世界模型嗎?意味著什麼? ]
我猜OpenAI放出這些demo,應該基於非常足夠的訓練數據,甚至包括CG產生的數據。然而即便如此那些用幾個變數的方程式就能描述的物理規律還是沒有掌握。
OpenAI認為Sora證明了一條通往simulators of the physical world的路線,但看起來簡單的堆砌數據並不是通往更高級智慧技術的道路。
以上是南大俞揚深度解讀:什麼是「世界模型」?的詳細內容。更多資訊請關注PHP中文網其他相關文章!