'創新呼聲：UCL汪軍探討ChatGPT通用人工智慧理論及應用前景'-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

'創新呼聲：UCL汪軍探討ChatGPT通用人工智慧理論及應用前景'

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 24, 2023 pm 07:55 PM

人工智慧 chatgpt

*本文原為英文寫作，中文翻譯由 ChatGPT 完成，原貌呈現，少數歧義處標註更正（紅色黃色部分）。英文原稿見附錄。筆者發現 ChatGPT 翻譯不妥處，往往是本人才疏英文原稿表達不夠流暢，有興趣的讀者請對照閱讀。

ChatGPT 最近引起了研究界、商業界和一般大眾的關注。它是一個通用的聊天機器人，可以回答使用者的開放式提示或問題。人們對它卓越的、類似人類的語言技能產生了好奇心，它能夠提供連貫、一致和結構良好的答案。由於擁有一個大型的預訓練生成式語言模型，它的多輪對話互動支援各種基於文字和程式碼的任務，包括新穎創作、文字遊戲和甚至透過程式碼生成進行機器人操縱。這使得大眾相信通用機器學習和機器理解很快就能實現。

如果深入挖掘，人們可能會發現，當程式碼被添加為訓練資料時，模型達到特定規模時，某些推理能力、常識理解甚至思維鏈（一系列中間推理步驟）可能湧現。雖然這個新發現令人興奮，為人工智慧研究和應用開闢了新的可能性，但它引發的問題比解決的問題更多。例如，這些新興湧現的能力能否作為高階智慧的早期指標，或者它們只是幼稚地模仿人類行為？繼續擴展已經龐大的模型能否導致通用人工智慧（AGI）的誕生，還是這些模型只是表面上具有受限能力的人工智慧？如果這些問題得到回答，可能會引起人工智慧理論和應用的根本性轉變。

因此，我們敦促不僅要複製ChatGPT 的成功，更重要的是在以下人工智慧領域推動開創性研究和新的應用開發（這並不是詳盡列表）：

1.新的機器學習理論，超越了基於任務的#機器學習的既定範式

#歸納推理是一種推理類型，我們根據過去的觀察得出關於世界的結論。機器學習可以被鬆散地看作是歸納推理，因為它利用過去（訓練）資料來提高在新任務上的表現。以機器翻譯為例，典型的機器學習流程包括以下四個主要步驟：

1.定義具體問題，例如需要將英文句子翻譯成中文：E → C，

2.收集數據，例如句子對{E → C}，

3.訓練模型，例如使用輸入{E} 和輸出{C} 的深度神經網絡，

4.將模型應用於未知資料點，例如輸入新的英文句子E'，輸出中文翻譯C ' 並評估結果。

如上所示，傳統機器學習將每個特定任務的訓練隔離。因此，對於每個新任務，必須從步驟 1 到步驟 4 重置並重新執行該過程，失去了先前任務的所有已獲得的知識（資料、模型等）。例如，如果要將法文翻譯成中文，則需要不同的模型。

在這個範式下，機器學習理論家的工作主要集中在理解學習模型從訓練資料到未見測試資料的泛化能力。例如，一個常見的問題是在訓練中需要多少樣本才能實現預測未見測試資料的某個誤差界限。我們知道，歸納偏差偏移量（即先驗知識或先驗假設）是學習模型預測其未遇到的輸出所必需的。這是因為在未知情況下的輸出值完全是任意的，如果不進行一定的假設，就不可能解決這個問題。著名的沒有免費午餐定理進一步說明，任何歸納偏差都有限制；它只適用於某些問題組，如果所假設的先驗知識不正確，它可能在其他地方失敗。

創新呼聲：UCL汪軍探討ChatGPT通用人工智慧理論及應用前景

#圖 1 ChatGPT 用於機器翻譯的螢幕截圖。使用者提示資訊僅包含說明，無需演示範例。

雖然上述理論仍然適用，但基礎語言模型的出現可能改變了我們對機器學習的方法。新的機器學習流程可以如下（以機器翻譯問題為例，見圖1）：

1.API 存取其他人訓練的基礎語言模型，例如訓練包含英文/中文配對語料在內的多元文件的模型。

2.根據少量範例或沒有範例，為手頭任務設計合適的文字描述（稱為提示），例如提示~~#Prompt~~ = {幾個範例E ➔ C}。

3.在提示和給定的新測試資料點的條件下，語言模型產生答案，例如將 E’ 追加到提示中並從模型中產生 C’。

4.將答案解釋為預測結果。

如步驟 1 所示，基礎語言模型作為一個通用~~#一刀切~~的知識庫。步驟 2 中提供的提示和上下文使基礎語言模型可以根據少量演示實例自訂以解決特定的目標或問題。雖然上述流程主要局限於基於文字的問題，但可以合理地假設，隨著跨模態（見第 3 節）基礎預訓練模型的發展，它將成為機器學習的標準。這可能會打破必要的任務障礙，為通用人工智慧（AGI）鋪平道路。

但是，確定提示文字中示範範例的操作方式仍處於早期階段。從一些早期的工作中，我們現在理解到，演示樣本的格式比標籤的正確性更重要（例如，如圖1 所示，我們不需要提供翻譯範例，但只需要提供語言說明），但它的可適應性是否有理論上的限制，如「沒有免費的午餐」定理所述？提示中陳述的上下文和指令式的知識能否整合到模型中以供未來使用？這些問題只是開始探討。因此，我們呼籲對這種新形式的上下文學習及其理論限制和性質進行新的理解和新的原則，例如研究泛化的界限在哪裡。

創新呼聲：UCL汪軍探討ChatGPT通用人工智慧理論及應用前景

#圖 2 人工智慧決策產生（AIGA）用於設計電腦遊戲的插圖。

2.磨練推理技巧

我們正處於一個令人興奮的時代邊緣，在這個時代裡，我們所有的語言和行為資料都可以被挖掘出來，用於訓練（並被巨大的電腦化模型吸收）。這是一個巨大的成就，因為我們整個集體的經驗和文明都可以消化成一個（隱藏的）知識庫（以人工神經網路的形式），以便日後使用。實際上，ChatGPT 和大型基礎模型被認為展示了某種形式的推理能力，甚至可能在某種程度上理解他人的心態（心智理論）。這是透過資料擬合（將掩碼語言標記預測作為訓練訊號）和模仿（人類行為）來實現的。然而，這種完全基於數據驅動的策略是否會帶來更大的智慧還有待商榷。

為了說明這個觀點，以指導一個代理（智能體）如何下棋為例。即使代理（智能體）可以存取無限量的人類下棋數據，僅透過模仿現有策略來產生比已有數據更優的新策略將是非常困難的。但是，使用這些數據，可以建立對世界的理解（例如，遊戲規則），並將其用於「思考」（在其大腦中建立一個模擬器，以收集回饋來創建更優的策略）。這突顯了歸納偏移的重要性；與其單純地採用蠻力方法，要求學習代理（智能體）具有一定的世界模型以便自我改進。

因此，迫切需要深入研究和理解基礎模型的新興能力。除了語言技能，我們主張透過研究底層機制來獲得實際推理能力。一個有前途的方法是從神經科學和腦科學中汲取靈感，以解密人類推理的機制，並推進語言模型的發展。同時，建立一個紮實的心智理論可能也需要深入了解多智能體學習及其基本原理。

3.從AI 產生內容（AIGC）到AI 生成行動（AIGA）

人類語言所發展出的隱式語意對於基礎語言模型來說至關重要。如何利用它是通用機器學習的關鍵主題。例如，一旦語義空間與其他媒體（如照片、影片和聲音）或其他形式的人類和機器行為資料（如機器人軌跡 / 動作）對齊，我們就可以無需額外成本地為它們獲得語義解釋能力。這樣，機器學習（預測、產生和決策）就會變得通用和可分解。然而，處理跨模態對齊是我們面臨的重大難題，因為標註關係需要耗費大量的人力。此外，當許多利益方存在衝突時，人類價值的對齊變得困難。

ChatGPT 的一個基本缺點是它只能直接與人類溝通。然而，一旦與外部世界建立了足夠的對齊，基礎語言模型應該能夠學習如何與各種各樣的參與者和環境互動。這很重要，因為它將賦予其推理能力和基於語言的語義更廣泛的應用和能力，超越了僅僅進行對話。例如，它可以發展成為一個通用代理（智能體），能夠瀏覽互聯網、控制電腦和操縱機器人。因此，更重要的是實施確保代理（智能體）的回應（通常以生成的操作形式）安全、可靠、無偏和可信賴的程序。

圖 2 展示了 AIGA 與遊戲引擎互動的範例，以自動化設計電子遊戲的過程。

4.多智能體與基礎語言模型互動的理論

ChatGPT 使用上下文學習和提示工程來在單一會話中驅動與人的多輪對話，即給定問題或提示，整個先前的對話（問題和回答）被發送到系統作為額外的上下文來建立回應。這是一個簡單的對話驅動的馬可夫決策過程（MDP）模型：

#{狀態 = 上下文，行動 = 回應，獎勵 = 讚 / 踩踏評級}。

雖然有效，但這種策略有以下缺點：首先，提示只是提供了使用者回應的描述，但使用者真正的意圖可能沒有被明確說明，必須被推斷。也許一個強大的模型，如先前針對對話機器人提出的部分可觀察馬可夫決策過程（POMDP），可以準確地建模隱藏的使用者意圖。

其次，ChatGPT 首先以擬合語言的生成為目標~~#使用語言適應性~~進行訓練，然後使用人類標籤進行對話目標的訓練/ 微調。由於平台的開放性質，實際使用者的目標和目的可能與訓練 / 微調的獎勵不一致。為了檢視人類和代理人（智能體）之間的均衡和利益衝突，使用博弈論的視角可能是值得的。

5.新應用

#正如ChatGPT 所證明的那樣，我們相信基礎語言模型有兩個獨特的特點，它們將成為未來機器學習和基礎語言模型應用的動力。第一個是其優越的語言技能，而第二個是其嵌入的語義和早期推理能力（以人類語言形式存在）。作為接口，前者將大大降低應用機器學習的入門門檻，而後者將顯著推廣機器學習的應用範圍。

如第 1 部分介紹的新學習流程所示，提示和情境學習消除了資料工程的瓶頸以及建置和訓練模型所需的工作量。此外，利用推理能力可以使我們自動分解和解決困難任務的每個子任務。因此，它將大大改變許多行業和應用領域。在網路企業中，基於對話的介面是網路和行動搜尋、推薦系統和廣告的明顯應用。然而，由於我們習慣於基於關鍵字的 URL 倒排索引搜尋系統，因此改變並不容易。人們必須被重新教導使用更長的查詢和自然語言作為查詢。此外，基礎語言模型通常是刻板和不靈活的。它們缺乏關於最近事件的當前資訊。它們通常會幻想事實，並不提供檢索能力和驗證。因此，我們需要一個能夠隨著時間動態演化的即時基礎模型。

因此，我們呼籲開發新的應用程序，包括但不限於以下領域：

##創新新穎的提示工程、流程和軟體支援。
基於模型的網路搜尋、推薦和廣告生成；面向對話廣告的新商業模式。
針對基於對話的 IT 服務、軟體系統、無線通訊（個人化訊息系統）和客戶服務系統的技術。
從基礎語言模型產生機器人流程自動化（RPA）和軟體測試和驗證。
AI 輔助程式設計。
創意產業的新型內容產生工具。
將語言模型與#運籌學營運研究、企業智慧和最佳化統一起來。
在雲端運算中高效且具成本效益地服務大型基礎模型的方法。
針對強化學習、多智能體學習和其他人工智慧

#制定

######領域的基礎模型。 ############語言輔助機器人技術。 ############針對組合最佳化、#########電子設計自動化#########（EDA）和晶片設計的基礎模型和推理。 ##################作者簡介#########

汪军，伦敦大学学院（UCL）计算机系教授，上海数字大脑研究院联合创始人、院长，主要研究决策智能及大模型相关，包括机器学习、强化学习、多智能体，数据挖掘、计算广告学、推荐系统等。已发表 200 多篇学术论文，出版两本学术专著，多次获得最佳论文奖，并带领团队研发出全球首个多智能体决策大模型和全球第一梯队的多模态决策大模型。

Appendix:

Call for Innovation: Post-ChatGPT Theories of Artificial General Intelligence and Their Applications

ChatGPT has recently caught the eye of the research community, the commercial sector, and the general public. It is a generic chatbot that can respond to open-ended prompts or questions from users. Curiosity is piqued by its superior and human-like language skills delivering coherent, consistent, and well-structured responses. Its multi-turn dialogue interaction supports a wide range of text and code-based tasks, including novel creation, letter composition, textual gameplay, and even robot manipulation through code generation, thanks to a large pre-trained generative language model. This gives the public faith that generalist machine learning and machine understanding are achievable very soon.

If one were to dig deeper, they may discover that when programming code is added as training data, certain reasoning abilities, common sense understanding, and even chain of thought (a series of intermediate reasoning steps) may appear as emergent abilities [1] when models reach a particular size. While the new finding is exciting and opens up new possibilities for AI research and applications, it, however, provokes more questions than it resolves. Can these emergent abilities, for example, serve as an early indicator of higher intelligence, or are they simply naive mimicry of human behaviour hidden by data? Would continuing the expansion of already enormous models lead to the birth of artificial general intelligence (AGI), or are these models simply superficially intelligent with constrained capability? If answered, these questions may lead to fundamental shifts in artificial intelligence theory and applications.

We therefore urge not just replicating ChatGPT’s successes but most importantly, pushing forward ground-breaking research and novel application development in the following areas of artificial intelligence (by no means an exhaustive list):

1.New machine learning theory that goes beyond the established paradigm of task-specific machine learning

Inductive reasoning is a type of reasoning in which we draw conclusions about the world based on past observations. Machine learning can be loosely regarded as inductive reasoning in the sense that it leverages past (training) data to improve performance on new tasks. Taking machine translation as an example, a typical machine learning pipeline involves the following four major steps:

1.define the specific problem, e.g., translating English sentences to Chinese: E→C,

2.collect the data, e.g., sentence pairs { E→C },

3.train a model, e.g., a deep neural network with inputs {E} and outputs {C},

4.apply the model to an unseen data point, e.g., input a new English sentence E’ and output a Chinese translation C’ and evaluate the result.

As shown above, traditional machine learning isolates the training for each specific task. Hence, for each new task, one must reset and redo the process from step 1 to step 4, losing all acquired knowledge (data, models, etc.) from previous tasks. For instance, you would need a different model if you want to translate French into Chinese, rather than English to Chinese.

在這個範式下，機器學習理論家的工作主要集中在理解學習模型從訓練資料到未見過的測試資料的泛化能力[2, 3]。例如，一個常見的問題是我們在訓練中需要多少樣本才能達到預測未見過的測試資料的特定誤差範圍。我們知道，學習模型需要歸納偏差（即先驗知識或先驗假設）來預測它未遇到的產出。這是因為未知情況下的輸出值完全是任意的，如果不做出某些假設就無法解決問題。著名的「沒有免費午餐」定理 [5] 進一步指出，任何歸納偏差都有其限制。它只適用於某一組問題，如果假設的先驗知識不正確，它可能會在其他地方失敗。

創新呼聲：UCL汪軍探討ChatGPT通用人工智慧理論及應用前景

#圖 1 用於機器翻譯的 ChatGPT 的螢幕截圖。提示僅包含說明，不需要示範範例。

雖然上述理論仍然成立，但基礎語言模型的到來可能已經改變了我們的機器學習方法。新的機器學習管道可能如下（使用相同的機器翻譯問題作為範例；參見圖 1）：

1.API 存取由其他人在其他地方訓練的基礎語言模型，例如，用不同的文檔訓練的模型，包括英語/中文的配對語料庫，

2.用幾個例子或根本沒有例子，設計一個合適的文本描述（稱為手邊任務的提示），例如Prompt = {一些範例E→C },

#3.以提示和給定的新測試資料點、語言為條件模型產生答案，例如，將E' 附加到提示並從模型產生C'，

##4.將答案解釋為預測結果。

如步驟1 所示，基礎語言模型充當通用的知識庫。步驟 2 中提供的提示（和上下文）允許僅透過幾個演示實例就可以針對特定目標或問題自訂基礎語言模型。雖然上述管道主要限於基於文字的問題，但可以合理地假設，隨著跨模態（參見第 3 節）基礎預訓練模型的不斷發展，它將成為一般機器學習的標準。這可以打破必要的任務障礙，為通用人工智慧鋪路。

但是，確定提示文字中的示範範例如何操作還處於早期階段。根據經驗，我們現在從一些早期工作 [2] 中了解到，演示樣本的格式比標籤的正確性更重要（例如，如圖 1 所示，我們不需要提供示例翻譯，但可以需要提供語言教學），但是如沒有免費午餐定理所述，它的適應性是否存在理論上的限制？提示（步驟 2）中所述的上下文和基於指令的知識是否可以整合到模型中以供將來使用？我們的這些調查只是觸及了表面。因此，我們呼籲對這種新形式的情境學習及其理論限制和屬性（例如泛化界限）背後有新的理解和新的原則。

創新呼聲：UCL汪軍探討ChatGPT通用人工智慧理論及應用前景

圖 2 設計電腦遊戲的 AIGA 圖示。

################## ########2.培養推理能力########

我們正處於一個令人興奮的時代的邊緣，在這個時代，我們所有的語言和行為資料都可以被挖掘來訓練（並被吸收）一個巨大的電腦化模型。這是一項巨大的成就，因為我們的整個集體經驗和文明可以被消化成一個單一的（隱藏的）知識庫（以人工神經網路的形式）以供以後使用。事實上，據說 ChatGPT 和大型基礎模型展示了某種形式的推理能力。他們甚至可以在某種程度上掌握他人的心理狀態（心理理論）[6]。這是透過資料擬合（預測掩碼語言標記作為訓練訊號）和模仿（人類行為）來完成的。然而，這種完全由數據驅動的策略是否會為我們帶來更多的情報，還存在爭議。

為了說明這個概念，請考慮指導代理人如何下西洋棋作為範例。即使智能體可以存取無限量的人類遊戲數據，僅透過模仿現有策略來產生比數據中已有策略更優化的新策略也是非常困難的。然而，使用這些數據，人們可以加深對世界的理解（例如遊戲規則），並用它來「思考」（在大腦中建立一個模擬器來收集回饋，以製定更優化的政策）。這凸顯了歸納偏差的重要性；學習代理需要擁有某種世界模型並從數據中推斷它以改進自身，而不是簡單的蠻力。

因此，迫切需要徹底研究和了解基礎模型的新興功能。除了語言技能之外，我們也主張透過研究潛在機制來研究實際推理能力的獲得[9]。一種有前途的方法是從神經科學和腦科學中汲取靈感，破解人類推理的機制並推進語言模型的發展。同時，建立堅實的心理理論可能還需要深入了解多智能體學習[10,11]及其基本原理。

##3.從AI生成內容（AIGC）到AI生成動作（AIGA）

#隱含語意的發展人類語言之上是基礎語言模型不可或缺的一部分。如何利用它是通用機器學習的一個重要課題。例如，一旦語義空間與其他媒體（例如照片、影片和聲音）或來自人類和機器行為的其他形式的資料（例如機器人軌跡/動作）對齊，我們就可以獲得它們的語義解釋能力，而無需額外的操作成本 [7, 14]。透過這種方式，機器學習（預測、生成和決策）將是通用且可分解的。然而，由於標記關係的勞動密集性質，處理跨模態對齊對我們來說是一個巨大的障礙。此外，當多方存在利益衝突時，人類價值協調就會變得困難。

ChatGPT 的一個根本缺點是它只能與人類直接溝通。然而，一旦與外部世界建立了充分的一致性，基礎語言模型應該能夠學習如何與各方和環境互動 [7, 14]。這很重要，因為它將賦予基於語言的推理能力和語義的力量，以實現會話之外更廣泛的應用和功能。例如，它可能演變成一個能夠瀏覽網路[7]、控制電腦[13]和操縱機器人[12]的多面手代理程式。因此，實施確保代理回應（通常以產生操作的形式）安全、可靠、公正且值得信賴的程序變得更加重要。

圖 2 演示了 AIGA [7]，用於與遊戲引擎互動以自動化視訊遊戲的設計過程。

##4.與基礎語言模型互動的多主體理論

ChatGPT 使用上下文學習和提示工程來驅動在單一會話中與人們進行多輪對話，即，給定問題或提示，整個先前的對話（問題和回應）都會發送到系統作為構建響應的額外上下文。這是一個簡單的馬可夫決策過程 (MDP) 對話模型：

{狀態 = 上下文，操作 = 回應，獎勵 = 贊成/反對評級}。

雖然有效，但該策略有以下缺點：首先，提示僅提供使用者回應的描述，但使用者的真實意圖可能無法明確表述，必須推斷出來。正如之前為對話機器人提出的那樣，一個穩健的模型可能是一個部分可觀察的馬可夫決策過程（POMDP），它可以準確地模擬隱藏的用戶意圖。

其次，ChatGPT 首先使用語言適應度進行訓練，然後使用人類標籤來實現對話目標。由於平台的開放性，實際使用者的目標可能與訓練/微調的獎勵不一致。為了檢視人類和代理人的均衡和利益衝突，可能值得使用博弈論的視角[9]。

##5.新穎的應用

ChatGPT 證明，我們認為基礎語言模型有兩個顯著特徵相信將成為未來機器學習和基礎語言模型應用背後的驅動力。第一個是其卓越的語言技能，第二個是其嵌入的語義和早期推理能力（以人類語言的形式）。作為一個接口，前者將大大降低應用機器學習的進入門檻，而後者將顯著概括機器學習的應用方式。

如第 1 節中介紹的新學習流程所示，提示和上下文學習消除了資料工程的瓶頸以及建構和訓練模型所需的工作。此外，利用推理能力可以使我們自動剖析和解決困難任務的每個子任務。因此，它將極大地改變眾多行業和應用領域。在基於互聯網的企業中，基於對話的介面是網路和行動搜尋、推薦系統和廣告的明顯應用。然而，由於我們已經習慣了基於關鍵字的URL倒排索引搜尋系統，所以這種改變並不簡單。必須重新訓練人們使用更長的查詢和自然語言作為查詢。此外，基礎語言模型通常是僵化且不靈活的。它無法獲取有關最近事件的當前資訊。它們通常會產生幻覺事實，並且不提供檢索功能和驗證。因此，我們需要一個能夠隨著時間的推移進行動態演化的即時基礎模型。

因此，我們呼籲新穎的應用，包括但不限於以下領域：