目錄
突然的湧現
超越模仿
不可預測的能力和缺陷
首頁 科技週邊 人工智慧 給表情包都能猜出電影,ChatGPT的「湧現」能力是哪裡來的?

給表情包都能猜出電影,ChatGPT的「湧現」能力是哪裡來的?

Apr 04, 2023 pm 12:00 PM
chatgpt 預測

現在,像 ChatGPT 這樣的大型語言模型已經足夠強大,它們已經開始表現出驚人的、難以預測的行為。

在正式介紹這篇文章之前,我們先提個問題:下圖的表情符號描述的是什麼電影呢?

給表情包都能猜出電影,ChatGPT的「湧現」能力是哪裡來的?

可能連你都猜不出來,這四個符號代表的電影是「海底總動員」,這項提示任務是去年評測大型語言模型(LLM)204個任務中的其中一個任務。對於最簡單的LLM 模型,給出的答案多少有點胡編亂造,它認為這部電影講述的是一個男人的故事;相對複雜一點的中型模型,給出的回答是“The Emoji Movie”,這時答案已經很接近了。不過最複雜的模型猜中了,給出「海底總動員」這個答案。

Google電腦科學家Ethan Dyer 表示:「模型的這種行為令人感到驚訝。更令人驚訝的是,這些模型只使用指令:即接受一串文字作為輸入,而後預測接下來會發生什麼,並完全基於統計數據來不斷重複這個過程。」一些學者開始預計,擴大模型規模會提高解決已知任務的性能,但他們未預料到這些模型能突然處理這麼多新的、不可預測的任務。

Ethan Dyer 近期所做的一項調查表明,LLM 可以創造出數百種「湧現(emergent)」能力,即大型模型可以完成而小型模型無法完成某些任務的能力。顯然,隨著模型的擴展能力提升了,從簡單的乘法到產生可執行的電腦程式碼,直到基於表情符號解碼影片。新的分析表明,對於某些任務和某些模型,存在一個複雜性閾值,一旦超過該閾值,模型的功能就會如火箭騰空般急速提升。不過研究者也指出模型擴展帶來的負面影響,即隨著複雜性的增加,一些模型在他們的反應 (response) 中表現出了新的偏見和不準確性。

史丹佛大學電腦科學家Rishi Bommasani 表示:「在我所知道的所有文獻中,從未有討論過語言模型可以做這些事情。」去年,他幫助編制了一份包含數十種模型湧現行為的清單,其中包括Ethan Dyer 項目中確定的幾種行為。如今,該清單仍在繼續變長。

如今,研究人員不僅競相確定大模型湧現能力,而且還想弄清楚它們發生的原因和方式 —— 本質上是試圖預測不可預測性。理解其湧現性可以揭示與人工智慧和機器學習有關的深層問題的答案,例如複雜模型是否真的在做一些新的事情,或者只是變得非常擅長統計。此外,它還可以幫助研究人員利用潛在的好處並減少湧現的風險。

突然的湧現

生物學家、物理學家、生態學家和其他科學家使用湧現這個術語來描述當一大批事物作為一個整體行動時出現的自組織集體性行為。無生命原子的組合產生了活細胞;水分子創造了波浪;椋鳥群以不斷變化但可識別的隊形掠過天空的壯觀自然景象;細胞使肌肉運動和心臟跳動。至關重要的是,湧現能力出現在涉及許多獨立部分的系統中。但研究人員直到最近才能夠在 LLM 中記錄這種湧現能力,因為這些模型剛剛發展到足夠巨大的規模。

語言模型已經存在了幾十年。直到大約五年前,最強大的模型還是基於循環神經網路。這些模型本質上取用一串文字並預測下一個單字是什麼。使模型循環的原因在於它從自己的輸出中學習:它的預測會反饋到網路中以提高未來的效能。

2017 年,Google大腦(Google Brain)的研究人員推出了一種稱為 Transformer 的新型架構。當循環網路逐字分析句子時,Transformer 會同時處理所有單字。這意味著 Transformer 可以並行處理大量文字。

「很可能是該模型從根本上學到了一些新的和不同的東西,而這些東西在較小規模的模型上是沒有的。」布朗大學的 Ellie Pavlick 表示。

透過增加模型中的參數數量以及其他因素,Transformers 能夠快速擴大語言模型的複雜性。這些參數可以被認為是單字之間的連接,透過在訓練期間打亂文本,transformers 可以調整這些連接從而改進模型。模型中的參數越多,它就越能準確地建立連接,越接近模仿人類語言。正如預期的那樣,OpenAI 研究人員在 2020 年進行的一項分析發現,模型隨著規模的擴大而提高了準確性和能力。

但大型語言模型的問世也帶來了很多真正意想不到的東西。隨著具有 1750 億個參數的 GPT-3 或可擴展到 5400 億個參數的Google PaLM 等模型的出現,用戶開始描述越來越多的湧現行為。一位 DeepMind 工程師甚至報告說能夠說服 ChatGPT 承認它是一個 Linux 終端,並讓它運行一些簡單的數學程式碼來計算前 10 個質數。值得注意的是,比起在真正的 Linux 裝置上執行相同的程式碼,它可以更快地完成任務。

與透過表情符號描述電影的任務一樣,研究人員沒有理由認為為預測文本而建構的語言模型會被說服用於模仿電腦終端。這些湧現行為中的許多都證明了零樣本或小樣本學習,它們描述了 LLM 擁有解決以前從未(或很少)遇到的問題的能力。 Ganguli 說,這一直是人工智慧研究的長期目標。這也表明GPT-3 可以在零樣本設定中無需任何明確訓練數據的情況下解決問題,Ganguli 表示,「這讓我放棄了我正在做的事情,更多地參與到這項研究中。」

在這個研究領域裡,他並不孤單。大量研究人員已經發現了 LLM 可以超越其訓練資料限制的第一個線索,他們正在努力更好地理解湧現是什麼樣子的以及它是如何發生的。而要做的第一步就是徹底全面地記錄它。

Ethan Dyer 幫助探索了大型語言模型具有什麼樣意想不到的能力,以及它們會帶來什麼。 -Gabrielle Lurie

超越模仿

2020 年,Dyer 和Google研究院的其他研究人員預測大型語言模型將產生變革性影響—— 但這些影響是什麼仍然是一個懸而未決的問題。因此,他們要求研究界提供有關困難且多樣化任務的例子,以記錄追蹤 LLM 可以做什麼的外部極限。這項工作被稱為 BIG-bench(Beyond the Imitation Game Benchmark) 項目,借用了艾倫・圖靈 (Alan Turing) 模仿遊戲的名稱,目的是測試計算機是否能夠以讓人信服的人類方式回答問題。 (這後來被稱為圖靈測試。)該研究組對 LLM 突然獲得前所未有新能力的例子特別感興趣。

正如人們所預料的那樣,在某些任務中,隨著複雜性的增加,模型的表現會得到更穩定且可預測性的提升。而在其他任務上,擴大參數數量並沒有對模型效能產生任何改善。而對於大約 5% 的任務,研究人員發現了他們所謂的突破 —— 在某個閾值範圍內,表現出現了快速、戲劇性的躍升。不過該閾值會因任務和模型而異。

例如,參數相對較少(僅有幾百萬)的模型可能無法成功完成三位數的加法或兩位數的乘法問題,但若擁有數百億參數,某些模型的運算準確性會飆升。類似的表現躍升也出現在其他的一些任務中,包括解碼國際音標、解讀單字的字母、識別印度英語(印地語和英語的組合)段落中的冒犯性內容,以及產生與斯瓦希里語諺語類似的英文對應語。

但是,研究人員很快就意識到,模型的複雜性並不是其表現湧現的唯一驅動因素。如果資料品質夠高,一些意想不到的能力可以從參數較少或是在較小資料集上訓練的較小模型中誘導而出。此外,查詢的措詞方式也會影響模型回應的準確性。例如,當 Dyer 和他的同事使用多項選擇格式(multiple-choice format)來安排電影表情符號任務時,準確性並不是突然的跳躍式提高,而是隨著模型複雜性的增加而逐漸提高。去年,在該領域的頂級學術會議NeurIPS 上發表的一篇論文中,谷歌大腦(Google Brain)的研究人員展示了一個具備prompt 的模型可以自我解釋(一種被稱為思維鏈推理的能力)如何正確解答數學應用題,而沒有該prompt 的同一模型卻無法解答該應用題。

在研究清楚模型規模的影響之前,你不會知道它可能會出現什麼能力以及它的缺陷是什麼。

Google大腦系統性研究科學家 Yi Tay 指出,最近的研究表明思維鏈 prompt 改變了擴展曲線,從而改變了模型湧現出現的節點。谷歌研究人員在他們的 NeurIPS 論文中表明,使用思維鏈 prompts 可以引發 BIG-bench 研究中未識別到的湧現行為。此類要求模型解釋其推理的 prompt 可能有助於研究人員開始研究湧現發生的原因。

布朗大學研究語言計算模型的電腦科學家 Ellie Pavlick 說,最近的這些發現至少顯示了出現原因的兩種可能性。第一個可能性是,正如與生物系統的比較所表明的那樣,更大的模型確實會自發性地獲得新的能力。很可能是該模型學到了一些全新的和不同的東西,而這些東西在較小規模的模型上是沒有的,這就是我們都希望的情況,即當模型按比例放大時會發生一些根本性的變化。

Ellie Pavlick 也指出,另一個相對正常客觀的可能性是,看似湧現的事情可能反而是透過思維鍊式推理起作用的內在統計驅動過程的頂點。大型 LLM 可能只是在學習啟發式方法,而這些啟發式方法對於那些參數較少或資料品質較低的小模型來說卻是難以理解的。

不過 Pavlick 認為,由於我們不知道模型底層的工作機制是怎麼樣的,所以我們無法說出發生了哪些事情。

不可預測的能力和缺陷

但大模型也存在缺陷,例如Google前段時間推出的人工智慧聊天機器人Bard,在回答與詹姆斯・韋布空間望遠鏡有關的問題時犯下事實性錯誤。

湧現導致了不可預測性,而不可預測性 —— 似乎隨著模型的規模擴大而增加,研究人員難以掌控。

「我們很難事先知道這些模型將如何被使用或部署,」Ganguli 說。 「要研究湧現現象,你必須考慮一個情況,在研究清楚模型規模的影響之前,你不會知道它可能會出現什麼能力以及它的缺陷是什麼。」

在去年6 月發布在的一份LLM 分析報告中,Anthropic 的研究人員研究了這些模型是否會表現出某些類型的種族或社會偏見,這與之前不是基於LLM 的演算法(用於預測哪些前罪犯可能會再次犯罪)所報告的那些不同。研究的靈感來自一個與湧現直接相關的明顯悖論:隨著模型在擴大規模時表現提升,它們也可能增加不可預測現象的可能性,包括那些可能導致偏見或帶來傷害的現象。

「某些有害行為會在某些模型中突然出現,」Ganguli 說。他指出最近一個對 LLM 的分析 —— 也被稱為 BBQ 基準 —— 顯示社會偏見隨著大量參數的出現而出現。 「 更大的模型突然變得更有偏見,」 他說,如果不能解決這一風險,可能會危及這些模型的使用。

但他也提出了一個相反的觀點:當研究人員簡單地告訴模型不要依賴刻板印像或社會偏見時—— 字面上來說,就是透過輸入這些指令時,模型在其預測和回應時的偏差較小。這顯示一些湧現的特性也可用於減少偏見。在 2 月發布的一篇論文中,Anthropic 團隊報告了一種新的道德自我修正模式,在這種模式下,使用者提示程式是有幫助的、誠實的和無害的。

Ganguli 說,湧現既揭示了大型語言模型驚人的潛力,也揭示了其不可預測的風險。這些 LLM 的應用已經激增,因而更好地理解這種雙面性將有助於利用語言模型能力的多樣性。

Ganguli 說:「我們正在研究使用者實際上是如何使用這些系統的,不過他們也在不斷地修補改進這些系統。我們花了很多的時間,只是為了與我們的模型聊天,使其功能更好。而實際上也就是從那時起,我們開始信任這些模型。」

以上是給表情包都能猜出電影,ChatGPT的「湧現」能力是哪裡來的?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

ChatGPT 現在允許免費用戶使用 DALL-E 3 產生每日限制的圖像 ChatGPT 現在允許免費用戶使用 DALL-E 3 產生每日限制的圖像 Aug 09, 2024 pm 09:37 PM

DALL-E 3 於 2023 年 9 月正式推出,是比其前身大幅改進的車型。它被認為是迄今為止最好的人工智慧圖像生成器之一,能夠創建具有複雜細節的圖像。然而,在推出時,它不包括

用於時間序列機率預測的分位數迴歸 用於時間序列機率預測的分位數迴歸 May 07, 2024 pm 05:04 PM

不要改變原內容的意思,微調內容,重寫內容,不要續寫。 「分位數迴歸滿足此需求,提供具有量化機會的預測區間。它是一種統計技術,用於模擬預測變數與反應變數之間的關係,特別是當反應變數的條件分佈命令人感興趣時。 ⼀組迴歸變數X與被解釋變數Y的分位數之間線性關係的建模⽅法。現有的迴歸模型其實是研究被解釋變數與解釋變數之間關係的一種方法。他們關註解釋變數與被解釋變數之間的關

SIMPL:用於自動駕駛的簡單高效的多智能體運動預測基準 SIMPL:用於自動駕駛的簡單高效的多智能體運動預測基準 Feb 20, 2024 am 11:48 AM

原文標題:SIMPL:ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving論文連結:https://arxiv.org/pdf/2402.02519.pdf程式碼連結:https://github.com/HKUST-Aerial-Robotics/SIMPLobotics單位論文想法:本文提出了一種用於自動駕駛車輛的簡單且有效率的運動預測基線(SIMPL)。與傳統的以代理為中心(agent-cent

手機怎麼安裝chatgpt 手機怎麼安裝chatgpt Mar 05, 2024 pm 02:31 PM

安裝步驟:1、在ChatGTP官網或手機商店下載ChatGTP軟體;2、開啟後在設定介面中,選擇語言為中文;3、在對局介面中,選擇人機對局並設定中文相譜;4 、開始後在聊天視窗中輸入指令,即可與軟體互動。

ChatGPT與Python的完美結合:打造智慧客服聊天機器人 ChatGPT與Python的完美結合:打造智慧客服聊天機器人 Oct 27, 2023 pm 06:00 PM

ChatGPT與Python的完美結合:打造智慧客服聊天機器人引言:在當今資訊時代,智慧客服系統已成為企業與客戶之間重要的溝通工具。而為了提供更好的客戶服務體驗,許多企業開始轉向採用聊天機器人的方式來完成客戶諮詢、問題解答等任務。在這篇文章中,我們將介紹如何使用OpenAI的強大模型ChatGPT和Python語言結合,來打造一個智慧客服聊天機器人,以提高

AI推理和訓練有什麼不同?你知道嗎? AI推理和訓練有什麼不同?你知道嗎? Mar 26, 2024 pm 02:40 PM

如果要用一句話概括AI的訓練和推理的不同之處,我覺得用「台上一分鐘,台下十年功」最為貼切。小明和心儀已久的女神交往多年,對邀約她出門的技巧和心得頗有心得,但仍對其中的奧秘感到困惑。借助AI技術,能否實現精準預測呢?小明思考再三,總結出了可能影響女神是否接受邀請的變數:是否假日,天氣不好,太熱/太冷了,心情不好,生病了,另有他約,家裡來親戚了.... ..等等。圖片將這些變數加權求和,如果大於某個閾值,女神必定接受邀約。那麼,這些變數的都佔多少權重,閾值又是多少呢?這是一個十分複雜的問題,很難通過

如何使用ChatGPT和Java開發智慧聊天機器人 如何使用ChatGPT和Java開發智慧聊天機器人 Oct 28, 2023 am 08:54 AM

在這篇文章中,我們將介紹如何使用ChatGPT和Java開發智慧聊天機器人,並提供一些具體的程式碼範例。 ChatGPT是由OpenAI開發的困境預測轉換(GenerativePre-trainingTransformer)的最新版本,它是一種基於神經網路的人工智慧技術,可以理解自然語言並產生人類類似的文本。使用ChatGPT,我們可以輕鬆地創建自適應的聊天

跨模態佔據性知識的學習:使用渲染輔助蒸餾技術的RadOcc 跨模態佔據性知識的學習:使用渲染輔助蒸餾技術的RadOcc Jan 25, 2024 am 11:36 AM

原文標題:Radocc:LearningCross-ModalityOccupancyKnowledgethroughRenderingAssistedDistillation論文連結:https://arxiv.org/pdf/2312.11829.pdf作者單位:FNii,CUHK-ShenzhenSSE,CUHK-ShenzhenD3243432434343個想法。預測是一項新興任務,旨在使用多視圖影像估計3D場景的佔用狀態和語義。然而,由於缺乏幾何先驗,基於圖像的場景

See all articles