清華大學週伯文：ChatGPT火爆揭示新一代協同與交互智能的高度重要性-人工智慧-PHP中文網

以下為週伯文在機器之心AI 科技年會上的演講內容，機器之心進行了不改變原意的編輯、整理：

謝謝機器之心的邀請，我是來自清華大學的周伯文。現在正是農曆年底，也是公曆年初，很高興有這樣一個邀請，與大家分享我們對過去一段時間人工智慧發展趨勢的總結，以及對未來的一些思考。

首先將核心想法分享出來，如果整個演講聽下來只能記住三點，請記住這三點：

清華大學週伯文：ChatGPT火爆揭示新一代協同與交互智能的高度重要性

第一，人工智慧的下一個突破會從純粹虛擬的存在轉向幫助人們在物理世界、生物世界和資訊世界更有效率洞察並形成新知識、完成任務，創造更高價值場景。

第二，下一代人工智慧亟需加強知識（包括暗知識）、運算、推理的組合能力。這種組合能力非常重要，但我們認為人工智慧與人、環境的高效互動協同是組合這些能力的核心。

原因有二：一是因為與人和環境的協同和互動是高價值創造的必備條件，如果沒有AI 和人的協同，AI 沒辦法獨立完成這些高價值場景；二是因為這種協同和互動也是提升AI 在知識、計算、推理及組合能力的有效路徑。目前 AI 在計算方面進展很大，但在知識和推理及模組的有效組合之間還存在很大的瓶頸。將人和環境的協同和互動加進來，能夠幫助彌補 AI 在這些方面的一些瓶頸。

第三，關於多模態我們有三個判斷：一，多模態理解與生成是協同與交互作用的重要基石；二，過去兩年間，不同模態之間的表徵學習趨於統一，這是一個非常好的基礎條件；三，最近大熱的ChatGPT 作為人機協同共創和交互的未來範式雛形，未來必將演變成多模態，將為多模態學習帶來新機會。儘管它還有很多很幼稚的地方，但這種這種範式的呈現給我們點明了未來的方向。

上述就是核心觀點。在今天的報告中，我會講一下協同互動智能與多模態學習，回顧最新的進展與機會。

第一部分，從傳統上的互動智能來說，我們走了很長的路。首先想強調，今天講的協同和交互，跟原來的交互智能是截然不同的東西。歷史上的互動更多是給定一個訓練好的系統，把互動當作一個任務去完成，例如從 ELIZA 、IBM Watson、微軟小冰、Siri 到京東的智慧客服。今天講的協同和交互，是把交互作為一個學習手段，把協同作為 AI 和人的分工，更好地完成人機協同融合，去洞察、形成新知識並完成任務。這是整個互動智能的歷史視野。可以觀察到，驅動進展的是技術視角的變化，包括從早期的規則模板到 Frame-based 任務型對話，再到統計語言模型、Seq2seq Model 、超大規模預訓練模型的產生。

清華大學週伯文：ChatGPT火爆揭示新一代協同與交互智能的高度重要性

對於這些變化，我們有一個判斷是， AI 的新一輪創新必將帶來生產力格局的演變。幾年前，大家更多在講人工智慧落地應用場景，聚焦在例如智慧質檢、客服這些領域。但現在我們看到， AI 的創新場景越來越複雜，開始涉及藝術內容創造、藥物發現和新知識發現。 2002 年諾貝經濟學獎得主丹尼爾‧卡尼曼的一本暢銷書《Thinking Fast And Slow》（思考，快與慢）提出了人的思考方式有兩類：系統1 的特點是直覺無意識，系統2 有語言、演算法、計算、邏輯在裡邊。

過去幾年，人工智慧更多用在系統1 的場景裡面，但未來包括現在正在發生的是，人工智慧其實更善於且更適合從人機協同的角度去承擔更多的系統2 的工作。因為系統1對人來說更有效率，它是一個低腦耗、低認知負擔的任務，而係統 2 對人來說的認知負擔非常重。只不過以前人工智慧的技術進展只能做系統 1，系統 2 做得不好，現在的趨勢是 AI 越來越朝向系統 2 靠攏。

清華大學週伯文：ChatGPT火爆揭示新一代協同與交互智能的高度重要性

#從產業閉環的角度來講，AI 場景從過去藍領加重複勞動（質檢、客服等）變成了白領加知識創新的應用領域。毫無疑問，這將帶來更大的價值空間，同時帶來更多飛輪效應。什麼叫飛輪效應？就是 AI 能夠幫助白領和知識工作者更好地去理解、洞察並形成新的知識。新的知識會幫助設計出更好的 AI ，更好的 AI 又能產生更多的新知識。

在這個趨勢下，我們必須清楚地認識到， AI 和人的協同方式必須轉變，因為AI 不再是原來的系統1 的AI，而是變成系統2 的AI。在這種情況下，AI 應該怎樣協同和交互，是一個需要去思考的前沿問題。

為什麼說 AI 需要具備知識、計算、推理的組合的能力？這裡有一些多模態計算的例子，給大家參考：

清華大學週伯文：ChatGPT火爆揭示新一代協同與交互智能的高度重要性

#例如左邊第一張圖，問穿紅色夾克的人在比賽結束時大概率會得第幾名，答案是第四名。要回答這樣的問題，除了圖像分割、語意分割要非常準確之外，還需要很多的常識推理和離散推理。這些東西是我們目前的 AI 系統非常非常缺乏的。

再例如第二個例子，是什麼讓這些椅子能夠容易攜帶？答案是“foldable”（可折疊）。這裡也有邏輯推理在裡面。像這種系統 2 的挑戰，其實需要人工智慧更多迭代和演進。

目前大家都知道的一個進展是大規模預訓練語言模型的突破。所以很自然的一個問題是，按照這個範式繼續往下走，能不能解決高價值應用場景與知識、計算與推理的有效整合？

以 GPT-3 為例，大家都知道它有 1750 億參數，它將資訊編碼在參數內部和模型架構裡面，突出計算，弱化知識和推理。一方面它在「Scaling Law」的支持下，數據越來越多，模型能力越來越強；另一方面， NYU 的幾位學者舉辦了一個叫做「Inverse Scaling」的挑戰賽，讓大家去尋找有些應用場景－模型越大、參數越大，效能表現越差。

清華大學週伯文：ChatGPT火爆揭示新一代協同與交互智能的高度重要性

上圖有兩個例子：一個是叫Negation QA，就是否定的否定，用雙重否定來測試預訓練模型的理解和推理能力。另外一個是Redefine Math，該任務針對現有的數學計算問題，重新定義數學常數，以測試語言模型能否理解其含義並進行正確地計 算。從右邊兩張圖大家看得出來，在這些 task 上面，模型參數越大，準確率反而越低。

這些例子其實都指出，基礎模型可能是未來互動智能的基石，我個人認為它是一個比「大模型」更重要的詞。很重要的一點在於，基礎模型並不是最終形態，要去解決碰到的這些問題，還需要更好地具象化。所以我提出，知識、計算和推理的有效組合是接下來非常需要去研究的方向。這種組合很重要的一點就是，人的協同和互動能夠推動這些基礎模型的升級。

我們用另一個基於GPT3 模型「InstructGPT 」的範例來比較：

清華大學週伯文：ChatGPT火爆揭示新一代協同與交互智能的高度重要性

在某些問題上，GPT-3 可以根據prompt 學習回答得非常好。但如果你要求給一個 6 歲的小孩解釋登月，從 GPT3 的基礎模型能力來講，它有各種角度去回答這個問題，因為它有大量的數值在後面。例如從重力的物理原理開始講，這是第一種；第二種是從歷史背景的角度去講，登月發生在美蘇冷戰期間，解釋冷戰是怎麼發生的，如何導致了登月項目；第三種是從天文學的角度去講，月亮是地球的行星。第四種是從人類的角度開始講，例如人類一直想登月，中國的嫦娥有很多優美的傳說，西方也一樣。

但是目前的GPT3 模型很難判斷哪種方式適合向6 歲的小孩去講這麼一個東西，它更多是基於frequency 和語料的重要性，很大概率是基於一個Wikipedia 的頁面去解釋什麼是登月和登月工程，這顯然不能很好地服務context。所以 InstructGPT 就在這個基礎上，讓使用者對 a、b、c、 d 這四類答案去進行選擇、評分。給出排序之後，這些回饋可以拿回來微調 GPT3 模型。這樣一來，如果接下來再有新的問題，例如「寫一個青蛙的故事」，這個模型的開頭就會變成 “once upon time”，一個非常適合小朋友聽故事的開頭方式。

這樣帶來的結果，第一點是模型毫無疑問更有效率了，同時另外一點是它幫助減少了模型參數。 InstructGPT 只有 13 億個模型參數，相較於 GPT3 模型壓縮了數百倍，但對特定場景能更好地服務於人。協同互動是提升 AI 在計算知識、計算、推理能力閉環的必要條件。

我們認為智能要包含知識、計算、推理三個基礎能力。我們看到計算目前進展非常快，當然計算也有算力的挑戰和數據的挑戰，但在知識和推理方面欠缺尤為明顯。

所以這裡就問問題：如何實現三者的閉環？加強 AI 和人、環境的主動協同互動能力，是否能夠更好地幫助 AI 實現三者閉環？我們的學術觀點是需要引進 AI 和人、環境的協同與交互，一方面提升每個模組的能力，另一方面將模組進行組合起來去形成協同交互。

呼應我們開篇的觀點，下一個AI 的突破會從虛擬的存在轉到幫助人們在物理世界、生物世界和資訊世界更有效率洞察新知識並完成任務。

在清華的協同互動智能研究中心，我們主要提出並且在做這些學術問題的研究：

清華大學週伯文：ChatGPT火爆揭示新一代協同與交互智能的高度重要性

第一個是我們提出新的協同觀點，就是我們研究讓AI 更多去負責系統2，讓人更負責系統1。這帶來的第一個挑戰就是 AI 本身要更往邏輯推理、高計算、高複合的這種任務上轉移，而不是僅僅去做系統 1 的模式辨識及直覺的工作。而帶來的第二個挑戰是，在這種新的分工下，人和 AI 該如何協同合作。這是兩個研究方向。

第二個是在 AI 和人的協同中，要讓 AI 更好地學習人在迴路的強化學習。我們要去研究更好的 AI 持續學習，要在 AI 和環境、人的協同裡面，做非常多的多模態表徵增強的工作。多模態是協同的一個重要管道，同時要加強對話式互動的增強機制。

還有一個很重要的協同，就是 AI 和環境的協同。 AI 需要適應不同的環境，這些環境適應總結成一句話是：雲到邊的自適應，邊到雲的自演化。雲到邊的自適應大家很容易理解，在不同的算力和通訊條件下，如何讓這些基礎模型更好地適配這些環境；邊到雲的自演化，其實是讓邊緣端的智慧反向幫助基礎模型更好地迭代。換句話說，這是小模型和大模型之間的協同和交互作用。但是我們不認為這種協同和交互作用是單向的，只能是大模型透過知識蒸餾、剪枝來獲得小模型。我們認為小模型的迭代和交互作用應該有更有效的路徑傳導到基礎模型。

我們認為，以上這三個技術路徑非常重要。下面會有一個底層的支撐——或許我們現在的研究會帶來可信賴人工智慧的一些基礎理論突破，因為知識、計算、推理進行更好的組合之後，能更好地去解決原來由知識、計算、推理融合成的黑盒子的可解釋性、魯棒性、泛化性這些挑戰。我們希望透過可分拆又可組合的方式更好地獲得這種可信賴人工智慧的進步。如果一個人不能透明地看到人工智慧推理過程，其實很難相信人工智慧的系統 2 的結果。

從另一個角度來看這個問題。大家知道最近 ChatGPT 非常熱，所以我們做很多工作無法繞過 ChatGPT。當然也包括更早一段時間 Facebook 提出的用 AI 幫助寫科學論文的一個系統 Galactica。我們發現它們都是需要人和環境的協同來創造場景。這些價值場景原來其實也沒有，但現在開始變成可能了。只是這種可能一旦脫離人的協同和交互，我們馬上發現這些 AI 系統 fall short。

清華大學週伯文：ChatGPT火爆揭示新一代協同與交互智能的高度重要性

包括Galactica ，它能寫出非常通暢的論文，但是很多基本事實和引用文獻都是錯誤的。例如作者名字是真的，但是 title 一部分真、一部分假，或多篇論文都合在一起去了。我想強調的是，目前的 AI 是沒有能力去完成這種完整的知識、計算、推理的閉環，所以必須需要去人 involve。

雖然Galactica 是馬上就下線了，但它的目的不是讓大家用它去獨立完成論文和科研，而是更好地幫助人，所以人必須在閉環裡面。這是另一個角度強調了人的協同和互動是非常重要的一個基礎條件。

接下來講在協同互動背景下我如何看多模態學習的進展和新機會。首先我覺得多模態在最近這段時間進展也非常快，開始帶來幾個明顯的趨勢。

首先，在建模和表徵結構的維度上，多模態之間在趨同。例如，過去在影像、影片中，大家都是用CNN，因為文字是Sequence Model，大家比較是用RNN 和LSTM，但現在不管是什麼模態，大家都可以把token 化之後的輸入全部當成一個Sequence 或Graph Model ，用自註意力加多頭機制來處理。近幾年受歡迎的 Transformer 架構，讓基本上所有模型的結構都趨同。

但一個深層的問題在於，為什麼 Transformer 的這種架構對所有模態表徵都具備優勢？我們也有一些思考，結論就是，Transformer 可以在更普適的幾何拓樸空間中對不同模態進行建模，進一步降低了多模態之間的建模壁壘。所以 Transformer 的這麼一個優勢，正好建構了多模態方向上的這種架構趨同性的基礎。

其次，我們發現多模態的預訓練維度也在趨同。最早的 Bert 是在自然語言領域提出來的，用這種 Mask 的模式引爆了預訓練模型。最近的工作，包括何愷明老師的 MAE 工作，包括語音領域的工作都不斷地在用類似的 Idea。透過這種 Mask 的方式，在不同的模態之間形成了趨同的預訓練模型架構。現在模態間的預訓練壁壘也被打通了，預訓練模型的維度也進一步趨同了。像 MAE 把 BERT 的預訓練方式引入了視覺、影像、語音等各個模態裡面。所以 Mask 這種機制在多種模態中呈現了普適性。

第三個趨勢是預架構參數和預訓練目標的統一。目前用 Transformer 架構對文字、圖像、音訊進行建模，並在多個任務之間可以開始共享參數。

清華大學週伯文：ChatGPT火爆揭示新一代協同與交互智能的高度重要性

具體來講，目前的多模態預訓練模型主要還是分為單流與雙流模型。在單流架構中，我們假設兩個模型之間的潛在相關性和對齊性是比較簡單的。雙流架構假設需要分離模態內部的模態類別的交互和跨模態之間的這種交互，來獲得更好的多模態表示，能夠對於不同的模態資訊進行編碼融合。

問題在於有沒有更好的方法來統一這些思路。目前的趨勢是，稀疏性和模組性可能是更強大的多模態、多任務之間的兩個關鍵屬性。稀疏的專家模型可以被視為單流和雙流之間的一種平衡稀疏的專家模型系統，它能夠處理不同專家、不同模態和任務。

我們提的一個問題是，能不能用協同互動的模式，把GooglePathway 模型在特定的這些任務上也進行百倍的壓縮，但保留這種稀疏和模組化的結構？這類工作非常值得後續研究。

再回到對話協同互動方面，我認為ChatGPT 是目前非常重要的工作，它的價值核心是在協同互動方向點亮了一個新的里程碑，它能用在學術寫作、程式碼產生、百科問答、指令理解等等工作。預訓練基礎模型能夠賦予互動智能問答、寫作、程式碼生成等各項能力。 ChatGPT 的核心能力提升，是在 GPT 3的基礎上加上了人在迴路的強化學習，加上了人對不同答案的選擇和排序。

雖然目前在 ChatGPT 中的呈現形式是以自然語言為主要載體，但整個互動的模態一定會拓展到這種多模態。人的協同和互動在多模態的場景下，其實會更有效率，也會帶來更多的資訊量，也會帶來各種模態的知識的融合。

如果把這些人在迴路的協同互動能力和 AI 生成能力融合在一起，還能做非常多的事情。例如協同互動 ChatGPT 模式和 Diffusion Model 融合進行產品創新和設計創新。在協同互動過程中， ChatGPT 這樣的模型不斷地去尋找當前設計的主流的趨勢和特定消費者的喜好，透過對消費者場景情感體驗的洞察，對設計趨勢、技術趨勢的判斷，再結合對大量圖片的分析，可以透過與設計師或專業的產品經理進行多輪協同交化的方式來實現共創。

在一些非常細分的場景下，其實很多人是沒有先驗知識的，例如智慧家庭領域，但是人可以透過多輪人機協同互動來產生這些創意設計，再透過Stable Diffusion Model，將這些人類創意的核心關鍵字場景體驗轉化成高保真還原的設計原圖。協同互動能夠幫助人們進行更有效率的產品創新、設計創新，這也是我們銜遠科技在做的事。

多模態的工作越來越重要，因此我們中心牽頭髮起「大規模多模態學習「的TPAMI 2023特刊，目標是匯集來自多個學科(如:電腦視覺、自然語言處理、機器學習、深度學習、智慧醫療、生物資訊學、認知科學)的觀點，提出重要的科學問題，並發現研究機會，以應對深度學習和大數據時代多模態學習領域的突出挑戰。

以上是清華大學週伯文：ChatGPT火爆揭示新一代協同與交互智能的高度重要性的詳細內容。更多資訊請關注PHP中文網其他相關文章！