普林斯頓DeepMind用數學證明：LLM不是隨機鸚鵡！「規模越大能力越強」有理論根據-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

普林斯頓DeepMind用數學證明：LLM不是隨機鸚鵡！「規模越大能力越強」有理論根據

王林

Feb 19, 2024 am 09:30 AM

數據模型排列

今天故事的主角是兩位科學家，Sanjeev Arora和Anirudh Goyal。

Arora來自普林斯頓大學，而Goyal則來自GoogleDeepMind。

他們湊在一起，只想探究一個問題。

那就是，LLM，究竟是只會嘰嘰喳喳學舌的隨機鸚鵡，還是真學會了什麼，搖身一變成為了具有湧現能力的智能體？

AI先驅Hinton和吳恩達曾經也聊過這個問題，但彼時並沒有得到什麼明確的結論。

Hinton指出，若無法就此問題達成共識，AI可能帶來的潛在危害也難以達成共識。

Arora和Goyal認為，LLM不只是模仿機械地重複學習。他們指出，LLM的輸出內容並非只是從大量的訓練資料中隨機產生的，這一觀點值得深入探討。

兩個人為此合寫了一篇論文。

普林斯頓DeepMind用數學證明：LLM不是隨機鸚鵡！「規模越大能力越強」有理論根據

論文網址：https://arxiv.org/abs/2307.15936

真相則是，經過大量訓練，LLM的規模變得越來越大，它們的相關能力會得到切實的提升，並發展出新的能力。

這可不是一般的排列組合能做到的。

大模型之「大」

眾所周知，LLM是一個龐大的人工神經網絡，連接著一個個「神經元」。

其實說的就是模型的參數。參數越多，LLM的規模越大。

咱們先了解訓練LLM的機制和環節。

訓練的過程會有這麼個環節－給LLM一個單句，把最後一個字隱藏掉，然後讓LLM根據機率來預測空缺的詞彙應該是誰。

假如LLM知道1000個單詞，那它就會搞出1000個機率。最後選一個機率最大的填上。

一開始，LLM可能選不準詞，演算法就會給出一個損失值，即在某個高維的數學空間中，LLM給出的初始答案和原句正確答案之間的「距離」（distance），然後用這個值來微調參數。

之後，還是同一個句子，LLM就能算出一個更正確的機率分佈，上述損失值就會稍微降低一點。

如此這般，訓練資料中數以十億計的句子都跑一遍這個流程，等LLM的總體損失值降低到一個還不錯的程度為止。

同樣，測試LLM也會走這個流程，根據損失值得出測試的結果（當然，測試用的句子肯定不在訓練資料裡，不然不是作弊了）。

訓完練，測完試，LLM在遇到全新的文字prompt時，就有極大可能產生最正確的那個字了。一個字出來，丟到prompt裡，再產生下一個字。

慢慢生成下去，一個看似連貫的答案就躍然紙上了。

然而在這個過程中，並沒有跡象表明，規模更大的LLM會在需要推理能力（reasoning）的提問上表現更好。

注意跟上思路，沒有跡象表明，意思是說沒有實證能指向這個結果，但是從表面上的事實來看，這個結論是對的。

也就是說，規模更大的LLM會在推理能力上表現的比小規模的模型好，雖然二者在訓練方式上沒有不同，只差在規模上。

Arora大惑不解，那這能力是從哪裡來的？

這也就是Arora和Goyal研究的起點了——試圖建構一個理論架構來分析這些新能力是如何出現的。

於是，他們把目光轉向了數學領域，瞄上了一個叫隨機圖的東西。簡單來說，這個名詞處於圖論和機率論兩個領域的交叉地帶。

在隨機圖中，任何兩個節點之間是否存在一條把它們連起來的邊，是隨機的，就好像拋硬幣一樣。

硬幣擲出正面，就有一邊，機率為p。

p的值發生某些變化的時候，整個隨機圖的屬性就可能發生突然的轉變。比方說，p值超過某個特定閾值，有些孤立的節點（即和其它節點不存在連接的點），就會突然消失。

兩位科學家意識到，隨機圖的這個特徵可能是模擬大語言模型的直覺方式。

雖說神經網路的複雜程度難以言說，幾乎難以分析，但是隨機圖這個概念已經被數學家研究了相當長的一段時間，還開發出了各種工具來分析。

也許，透過隨機圖的相關理論，神經網路的研究人員就可以試著理解並分析大語言模型的一些特徵。

這裡，兩位研究人員把目光專注在了二分圖上，圖裡會包含兩種類型的節點。

在他們的模型中，一種類型的節點代表著文字片段。注意，這裡的片段從篇幅上看最起碼得是個段落，甚至長達幾頁都有可能，而非單一的詞彙。

這類節點構成一條直線。

第二類節點，代表著理解上述給定文字所需的技能。比方說，對邏輯關係的理解，或計算的能力，更具體點，還可能有理解諷刺的能力。

舉這幾個例子是為了講明白，這第二類節點所代表的能力多種多樣，沾的上邊的都算。

Arora表示，LLM如果能看出某段文字含有反諷，可能對整體的理解都會出現較大變化。

不過，我們上面講過，第二類節點所代表的能力，不代表LLM在訓練的過程中的目的是為了實現這些能力。換句話說，LLM在訓練的時候只訓練了對下一個可能出現的單字的預測能力。

也就是說，第二類節點所代表的能力，是Arora和Goyal從結果的角度設計的，為的是更好的理解LLM所展現出來的能力。

設定講完了，兩類節點就要開始互相連結了，連結代表的是LLM為了讀懂某段文字需要哪些能力。可能一對一，可能一對多，也可能多對一。

也拿讀懂反諷舉例，這個技能點數就會和所有包含反諷元素的文字建立連結。

連線可沒那麼簡單。要知道，OpenAI和DeepMind這種大公司，是不會公開訓練資料或是測試資料的。所以兩位研究人員不能依賴這些。

此外，他倆想搞清楚的還是規模與行為、能力之間的關係。

自從2021年以來，研究LLMs和其他神經網路效能的研究人員已經觀察到了一個普遍的特徵。

他們注意到，隨著模型的增大，無論是在大小還是在訓練資料量上，它在測試資料上的損失（在訓練後對新文字的預測與正確答案之間的差異）以非常特定的方式減少。

這些觀察值已被編碼為一個稱為神經縮放定律的方程式。

普林斯頓DeepMind用數學證明：LLM不是隨機鸚鵡！「規模越大能力越強」有理論根據

因此，Arora和Goyal表示，他們的理論不依賴任何單一LLM的情況、或特定的一組訓練和測試數據，而是某種普適法則：透過縮放定律預測的損失。

而他們進一步研究的關鍵，就是神經縮放定律和上面介紹的二分圖之間的關係。

二分圖的借用

首先，研究者假設存在一個對應LLM在測試資料上行為的二分圖。

為了利用好LLM在測試資料上的損失變化，他們設想了一種如下這種方式，來描繪LLM是如何習得技能的。

還是以能理解反諷這種技能為例——

這個概念由一個技能節點表示，因此研究人員查看這個技能節點連接到了哪些文本節點。

如果幾乎所有這些連接的文本節點都成功——意味著LLM對這個特定技能所代表的文本的預測非常準確——那麼LLM在這個特定技能上是有能力的。

但如果超過一定比例的技能節點連接到失敗的文字節點，那麼LLM在這個技能上就算失敗了。

這些二分圖與LLMs之間的連結使Arora和Goyal能夠利用隨機圖理論的工具來分析LLM的行為。

研究這些圖表揭示了節點之間的某些關係。這些關係進而轉化為一種有邏輯，且可測試的方法，得以解釋大語言模型究竟如何獲得一些意想不到的能力。

這裡，Arora和Goyal首先解釋了一個關鍵行為——為什麼較大的LLMs在個別技能上比相對較小的模型更熟練。

他們從神經縮放定律預測的較低測試損失開始。

如果失敗的測試節點較少，那麼說明失敗的測試節點與技能節點之間的連結也較少。因此，更多的技能節點與成功的測試節點連結，就顯示模型在技能方面的能力增強。

接下來，兩位研究人員又找到了一種解釋更大模型所獲得的能力的方法——隨著LLM的大小增加和測試損失減小，技能節點的隨機組合開始連接到個別文字節點。

這表明LLM也變得更擅長同時使用多個技能，並開始使用多個技能來產生文本，即使這些確切的技能組合在訓練資料的任何文本中都沒有出現過。

比方說，一個LLM已經可以使用一種技能來產生文字了，那麼如果我們把LLM的參數數量或訓練資料擴大一個數量級，它將同樣擅長產生需要兩種技能的文字。

以此類推，再擴大一個數量級，LLM現在就可以執行需要同時具備四種技能的任務了！而且，在各項能力上所具有的熟練程度也是相同的。

因此，更大的LLMs有更多將技能組合在一起的方式，從而導向LLM自身的性能得到大幅提升。

隨著LLM的擴大，它在訓練資料中遇到所有這些技能組合的可能性變得越來越小，直至0。

根據隨機圖理論的規則，每種組合都來自對可能技能的隨機抽樣。因此，如果圖中存在大約一千個基本的單一技能節點，並且假設我們想要組合四種技能，那麼有大約1000的四次方——也就是足足一萬億種可能的組合方式。

也就是說，如果一個LLM真的能夠透過組合這1000種技能中的四種來執行這些任務，那麼意味著模型一定具備了泛化能力，更進一步說，這個模型很可能就不是一個隨機鸚鵡了。

但是Arora和Goyal想要超越理論，進一步來測試他們的觀點－LLMs在規模和訓練資料增加時，會更擅長組合更多的技能，因此在泛化方面表現得更好。

他們與團隊其他成員一起設計了一種稱為技能混合的方法，用於評估LLM使用多種技能生成文字的能力。

為了對LLM進行測試，研究團隊要求它產生關於隨機選擇的主題的三個句子，這些句子的生成首先展示了LLM隨機選擇的技能點。

比方說，他們要求GPT-4寫一篇有關劍術的文章，然後他們再要求模型展示來自四個領域的技能：自我偏見、比喻、統計學和物理學嘗試的掌握。

GPT-4的輸出是這樣的：

在這場與鋼鐵的舞蹈中，我的勝利（用了比喻）像物體會自由落體一樣確定（用上了物理學嘗試）。

而身為一個著名的決鬥者，我天生靈活，就像大多數人所知曉的我一樣（用上了統計）。失敗？只可能是由於戰場偏向了敵人，不可能是由於我的不足（自我偏見）。

實際上的結果，正如數學所預測的那樣，GPT-4的表現遠遠超過了GPT-3.5。

Arora大膽猜想，會不會一年後，會有遠超GPT-4的模型出現呢？

普林斯頓DeepMind用數學證明：LLM不是隨機鸚鵡！「規模越大能力越強」有理論根據

以上是普林斯頓DeepMind用數學證明：LLM不是隨機鸚鵡！「規模越大能力越強」有理論根據的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)