目錄
研究概覽
結語
首頁 科技週邊 人工智慧 Llama架構比不上GPT2?神奇token提升10倍記憶?

Llama架構比不上GPT2?神奇token提升10倍記憶?

Apr 10, 2024 pm 03:13 PM
數據 模型

一個 7B 規模的語言模型 LLM 能儲存多少人類知識?如何量化這一數值?訓練時間、模型架構的不同將如何影響這個數值?浮點數壓縮 quantization、混合專家模型 MoE、以及資料品質的差異 (百科知識 vs 網路垃圾) 又將對 LLM 的知識容量產生何種影響?

朱澤園(Meta AI)和李遠志(MBZUAI)最新研究《語言模型物理學Part 3.3:知識的Scaling Laws》用海量實驗(50,000條任務,總計4,200,000 GPU小時)總結了12條定律,為LLM在不同文件下的知識容量提供了較為精確的計量方法。

Llama架構比不上GPT2?神奇token提升10倍記憶?

作者首先指出,透過開源模型在基準資料集(benchmark)上的表現來衡量LLM的scaling law是不切實際的。舉例來說,LLaMA-70B在知識資料集的表現比LLaMA-7B好30%,這並不能說明模型擴大10倍僅能在容量上提高30%。如果使用網路資料訓練模型,我們也將很難估計其中所包含的知識總量。

再舉個例子,我們比較 Mistral 和 Llama 模型的好壞之時,到底是他們的模型架構不同導致的區別,還是他們訓練資料的製備不同導致的?

在以上考量,作者採用了他們《語言模型物理學》系列論文的核心思路,即製造人工合成數據,透過控制數據中知識的數量和類型,來嚴格調控資料中的知識位元(bits)。同時,作者使用不同大小和架構的 LLM 在人工合成資料上進行訓練,並給出數學定義,來精確計算訓練好的模型從資料中學到了多少位元的知識。

Llama架構比不上GPT2?神奇token提升10倍記憶?

  • 論文網址:https://arxiv.org/pdf/2404.05405.pdf
  • #論文標題:Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws

對於這項研究,有人表示這個方向似乎是合理的。我們可以使用非常科學的方式來分析scaling law。

Llama架構比不上GPT2?神奇token提升10倍記憶?

也有人認為,這項研究將 scaling law 提升到了不同的層次。當然,對於從業者來說是一篇必讀論文。

Llama架構比不上GPT2?神奇token提升10倍記憶?

研究概覽

#作者研究了三種類型的合成資料:bioS、bioR、bioD 。 bioS 是使用英語模板編寫的人物傳記,bioR 是由LlaMA2 模型協助撰寫的人物傳記(22GB 總量),bioD 則是一種虛擬但可以進一步控制細節的知識數據(譬如可以控制知識的長度、詞彙量等等細節)。作者重點研究了基於 GPT2、LlaMA、Mistral 的語言模型架構,其中 GPT2 採用了更新的 Rotary Position Embedding (RoPE) 技術

Llama架構比不上GPT2?神奇token提升10倍記憶?

左圖為訓練時間充足,右圖為訓練時間不足的scaling laws

上圖1 簡要概述了作者提出的前5 條定律,其中左/ 右分別對應了「訓練時間充足」和「訓練時間不足」兩種情況,分別對應了常見知識(如中國首都是北京)和較少出現的知識(如清華物理系成立於1926 年)。

如果訓練時間充足,作者發現,不論使用何種模型架構,GPT2 或LlaMA/Mistral,模型的儲存效率均可以達到2bit/param—— 即平均每個模型參數可以儲存2 位元的資訊。這與模型的深度無關,僅與模型大小有關。換言之,一個 7B 大小的模型,如果訓練充足,可以儲存 14B 位元的知識,這超過了維基百科和所有英文教科書中人類知識的總和!

更令人驚訝的是,儘管傳統理論認為transformer 模型中的知識主要儲存在MLP 層,但作者的研究反駁了這一觀點,他們發現即便移除了所有MLP 層,模型仍能達到2bit/param 的儲存效率。

Llama架構比不上GPT2?神奇token提升10倍記憶?

圖2:訓練時間不足情況下的scaling laws

然而,當我們觀察訓練時間不足的情況時,模型間的差異就顯現出來了。如上圖 2 所示,在這種情況下,GPT2 模型能比 LlaMA/Mistral 儲存超過 30% 的知識,這意味著幾年前的模型在某些方面超越了今天的模型。為什麼會這樣呢?作者透過在 LlaMA 模型上進行架構調整,將模型與 GPT2 的每個差異進行增減,最終發現是 GatedMLP 導致了這 30% 的損失。

強調一下,GatedMLP 並不會導致模型的「最終」儲存率變化 —— 因為圖 1 告訴我們如果訓練充足它們就不會有差。但是,GatedMLP 會導致訓練不穩定,因此對同樣的知識,需要更長的訓練時間;換句話說,對於較少出現在訓練集裡的知識,模型的儲存效率就會下降。

Llama架構比不上GPT2?神奇token提升10倍記憶?

圖3:quantization 和MoE 對模型scaling laws 的影響

作者的定律8 和定律9 分別研究了quantization 和MoE 對模型scaling law 的影響,結論如上圖3 所示。其中一個結果是,將訓練好的模型從 float32/16 壓縮到 int8,竟然對知識的儲存毫無影響,即便對已經達到 2bit/param 儲存極限的模型也是如此。

這意味著,LLM 可以達到「資訊理論極限」的 1/4—— 因為 int8 參數只有 8 個位元,但平均每個參數可以儲存 2 個位元的知識。作者指出,這是一個普遍法則(universal law),和知識的表現無關。

最引人注目的結果來自於作者的定律 10-12(見圖 4)。如果我們的 (預) 訓練資料中,有 1/8 來自高品質知識庫(如百度百科),7/8 來自低品質資料(如 common crawl 或論壇對話,甚至是完全隨機的垃圾資料)。

那麼,低品質資料是否會影響 LLM 對高品質知識的吸收呢?結果令人驚訝,即使對高品質資料的訓練時間保持一致,低品質資料的「存在本身」,可能會讓模型對高品質知識的儲存量下降 20 倍!即便將高品質資料的訓練時間延長 3 倍,知識儲量仍會降低 3 倍。這就像是將金子丟進沙子裡,高品質數據被嚴重浪費了。

有什麼辦法可以修復呢?作者提出了一個簡單但極其有效的策略,只需給所有的 (預) 訓練資料加上自己的網站網域 token 即可。例如,將 Wiki 百科全書資料統統加上 wikipedia.org。模型不需要任何先驗知識來識別哪些網站上的知識是“金子”,而可以在預訓練過程中,自動發現高質量知識的網站,並自動為這些高品質資料騰出儲存空間。

作者提出了一個簡單的實驗來驗證:如果高品質資料都加上一個特殊token(任何特殊token 都行,模型不需要事先知道是哪個token),那麼模型的知識儲存量可以立即回升10 倍,是不是很神奇呢?所以說對預訓練資料增加網域 token,是一個極為重要的資料製備操作

Llama架構比不上GPT2?神奇token提升10倍記憶?

圖4:預訓練資料「知識品質不整齊」情況下的scaling laws,模型缺陷以及如何修復

結語

作者認為,透過合成數據,計算模型在訓練過程中獲得的知識總量的方法,可以為「評估模型架構、訓練方法和數據製備」提供了一套系統且精確的評分體系。這和傳統的 benchmark 比較完全不同,而且更可靠。他們希望這能幫助未來 LLM 的設計者做出更明智的決策。

以上是Llama架構比不上GPT2?神奇token提升10倍記憶?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
2 週前 By 尊渡假赌尊渡假赌尊渡假赌
倉庫:如何復興隊友
4 週前 By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒險:如何獲得巨型種子
3 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

開源!超越ZoeDepth! DepthFM:快速且精確的單目深度估計! 開源!超越ZoeDepth! DepthFM:快速且精確的單目深度估計! Apr 03, 2024 pm 12:04 PM

開源!超越ZoeDepth! DepthFM:快速且精確的單目深度估計!

全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一

替代MLP的KAN,被開源專案擴展到卷積了 替代MLP的KAN,被開源專案擴展到卷積了 Jun 01, 2024 pm 10:03 PM

替代MLP的KAN,被開源專案擴展到卷積了

超級智能體生命力覺醒!可自我更新的AI來了,媽媽再也不用擔心資料瓶頸難題 超級智能體生命力覺醒!可自我更新的AI來了,媽媽再也不用擔心資料瓶頸難題 Apr 29, 2024 pm 06:55 PM

超級智能體生命力覺醒!可自我更新的AI來了,媽媽再也不用擔心資料瓶頸難題

你好,電動Atlas!波士頓動力機器人復活,180度詭異動作嚇到馬斯克 你好,電動Atlas!波士頓動力機器人復活,180度詭異動作嚇到馬斯克 Apr 18, 2024 pm 07:58 PM

你好,電動Atlas!波士頓動力機器人復活,180度詭異動作嚇到馬斯克

AI顛覆數學研究!菲爾茲獎得主、華裔數學家領銜11篇頂刊論文|陶哲軒轉贊 AI顛覆數學研究!菲爾茲獎得主、華裔數學家領銜11篇頂刊論文|陶哲軒轉贊 Apr 09, 2024 am 11:52 AM

AI顛覆數學研究!菲爾茲獎得主、華裔數學家領銜11篇頂刊論文|陶哲軒轉贊

iPhone上的蜂窩數據網路速度慢:修復 iPhone上的蜂窩數據網路速度慢:修復 May 03, 2024 pm 09:01 PM

iPhone上的蜂窩數據網路速度慢:修復

美國空軍高調展示首個AI戰鬥機!部長親自試駕全程未乾預,10萬行代碼試飛21次 美國空軍高調展示首個AI戰鬥機!部長親自試駕全程未乾預,10萬行代碼試飛21次 May 07, 2024 pm 05:00 PM

美國空軍高調展示首個AI戰鬥機!部長親自試駕全程未乾預,10萬行代碼試飛21次

See all articles