首頁 科技週邊 人工智慧 中科大聯合華為諾亞提出Entropy Law,揭秘大模型效能、資料壓縮率以及訓練損失關係

中科大聯合華為諾亞提出Entropy Law,揭秘大模型效能、資料壓縮率以及訓練損失關係

Jul 22, 2024 pm 04:39 PM
工程

中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系
AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本工作由中科大認知智能全國重點實驗室 IEEE F 
本工作由中科大認知智能全國重點實驗室 IEEE F 諾恩方舟團隊完成。陳恩紅教授團隊深耕資料探勘、機器學習領域,在頂尖期刊與會議發表多篇論文,Google學術論文引用超兩萬次。諾亞方舟實驗室是華為公司從事人工智慧基礎研究的實驗室,秉持理論研究與應用創新並重的理念,致力於推動人工智慧領域的技術創新與發展。

資料是大語言模型(LLMs)成功的基石,但並非所有資料都有益於模型學習。直覺上,高品質的樣本在教授 LLM 上預期會有更好的效率。因此,現有方法通常專注於基於品質的數據選擇。然而,這些方法中的大多數獨立地評估不同的資料樣本,忽略了樣本之間複雜的組合效應。如圖 1 所示,即使每個樣本品質完美,由於它們的互資訊冗餘或不一致性,它們的組合可能仍然次優。儘管基於品質的子集由所有三個優質樣本組成,但它們編碼的知識實際上是冗餘和衝突的。相較之下,另一個由幾個相對較低品質但多樣化的樣本組成的資料子集在教授 LLM 方面可能傳達更多資訊。因此,基於品質的資料選擇並未完全符合最大化 LLM 知識掌握的目標。

而本文旨在揭示 LLM 效能與資料選擇之間的內在關係。受LLM 資訊壓縮本質的啟發,我們發現了一條entropy law,它將LLM 效能與資料壓縮率和前幾步模型訓練的損失加以聯繫,分別反映了資料集的資訊冗餘程度和LLM 對資料集中固有知識的掌握程度。透過理論推導和實證評估,我們發現模型表現與訓練資料的壓縮率呈負相關,而這通常會產生較低的訓練損失。基於 entropy law 的發現,我們提出了一種非常高效且通用的資料選擇方法用於訓練 LLM,名為 ZIP,其旨在優先選擇低壓縮率的資料子集。 ZIP 分多階段、貪心地選擇多樣化的數據,最終獲得一個具有良好多樣性的數據子集。 中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系

  • 團隊:中科大認知智慧全國重點實驗室陳恩紅團隊,華為諾亞方舟實驗室
  • 論文連結: https://arxiv.org/pdf/2407.066455% : https://github.com/USTC-StarTeam/ZIP

                                 圖 1時,性能之間的關係進行理論分析。直覺上,訓練資料的正確性和多樣性會影響最終模型的表現。同時,如果資料有嚴重的內在衝突或模型對資料編碼的資訊掌握不佳,LLM 的效能可能會次優。基於這些假設,我們將 LLM 的效能表示為 Z ,其預期會受到以下因素的影響:
資料壓縮率 R:直覺上,壓縮率越低的資料集顯示資訊密度越高。
訓練損失 L:表示資料對模型來說是否難以記憶。在相同的基礎模型下,高訓練損失通常是由於資料集中存在雜訊或不一致的資訊。

    資料一致性 C:資料的一致性透過給定前文情況下下一個 token 的機率的熵來反映。更高的資料一致性通常會帶來更低的訓練損失。
  • 平均數據質量 Q:反映了數據的平均樣本級質量,可以透過各種客觀和主觀方面來衡量。
  • 給定一定量的訓練數據,模型性能可以透過上述因素來估計:
  • 其中 f 是一個隱函數。給定一個特定的基礎模型,L 的規模通常取決於R 和C,可以表示為:

由於具有更高同質性或更好數據一致性的數據集更容易被模型學習,L預計在R 和C 上是單調的。因此,我們可以將上述公式改寫為:

中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系

其中 g' 是一個反函數。結合上述三個方程,我們得到:

中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系

其中 h 是另一個隱函數。如果資料選擇方法不會顯著改變平均資料品質 Q,我們可以近似地將變數 Q 視為常數。因此,最終效能可以粗略地表示為:中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系
這意味著模型效能與資料壓縮率和訓練損失有關。我們將這種關係​​稱為 Entropy law

基於 Entropy law,我們提出兩個推論:

  • 如果將 C 視為常數,訓練損失直接受壓縮率影響。因此,模型性能由壓縮率控制:如果資料壓縮率 R 較高,那麼 Z 通常較差,這將在我們的實驗中得到驗證。
  • 在相同的壓縮率下,較高訓練損失意味著較低的資料一致性。因此,模型學到的有效知識可能更有限。這可以用來預測 LLM 在具有相似壓縮率和樣本品質的不同數據上的表現。我們將在後續展示這項推論在實務上的應用。

ZIP:高度輕量化的資料選擇演算法

在entropy law 的指導下,我們提出了ZIP 資料來選擇,並透過樣本數據在有限的訓練資料預算下最大化有效資訊量。出於效率考量,我們採用了一種迭代多階段貪心範式,以高效地獲得具有相對低壓縮率的近似解。在每輪迭代中,我們首先使用全域選擇階段來選擇一組具有低壓縮率的候選樣本池,找到資訊密度高的樣本。然後,我們採用粗粒度的局部選擇階段,選擇一組與已選樣本冗餘度最低的較小樣本集。最後,我們使用細粒度的局部選擇階段,最小化要添加樣本之間的相似性。上述過程持續進行直到獲得足夠的數據,具體演算法如下:

中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系

實驗結果

1.ZIP 選擇演算法對於不同LLM、在不同LL
比較不同的SFT 資料選擇演算法,基於ZIP 選擇資料所訓練所得的模型效能上展現優勢,並且在效率上也佔優。具體結果請見下表:

得益於 ZIP 的模型無關、內容無感知的特性,其同樣也可應用於偏好對齊階段的資料選擇。而 ZIP 所選擇的數據同樣展現出了較大的優勢。具體結果請見下表:

中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系

2.Entropy law 的實驗驗證中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系

基於SFT 資料選擇實驗,我們基於模型效果、資料壓縮率、以及模型效果擬合了多個關係曲線。結果見圖 2 以及圖 3,我們可以從圖中觀察到三個因素之間的緊密關聯。首先,低壓縮率資料通常會帶來更好的模型效果,這是因為LLMs 的學習過程與資訊壓縮高度相關,我們可以將LLM 視為資料壓縮器,那麼壓縮率較低的資料意味著更多的知識量,從而對壓縮器更有價值。同時,可以觀察到較低的壓縮率通常伴隨著更高的訓練損失,這是因為難以壓縮的數據攜帶了更多的知識,對 LLM 吸收其中蘊含的知識提出了更大的挑戰。

中科大联合华为诺亚提出Entropy Law,揭秘大模型性能、数据压缩率以及训练损失关系                               Figure 3 Llama-3-8B

We provide an entropy law to guide the incremental update of LLM training data in real scenarios Applications. In this task scenario, the amount of training data remains relatively stable, and only a small portion of the data is modified. The results are shown in Figure 4, where to are 5 data versions that are gradually updated incrementally. Due to confidentiality requirements, only the relative relationship of the model effects under different compression rates is provided. According to entropy law predictions, assuming that data quality does not drop significantly after each incremental update, it can be expected that model performance will improve as the data compression rate decreases. This prediction is consistent with the results for data versions to in the figure. However, data version
shows an unusual increase in loss and data compression ratio, which indicates the potential for model performance degradation due to reduced consistency of the training data. This prediction was further confirmed by subsequent model performance evaluation. Therefore, entropy law can serve as a guiding principle for LLM training, predicting the potential risk of LLM training failure without training the model on the full dataset until convergence. This is particularly important given the high cost of training LLMs.

                                                                                     

以上是中科大聯合華為諾亞提出Entropy Law,揭秘大模型效能、資料壓縮率以及訓練損失關係的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

<🎜>:泡泡膠模擬器無窮大 - 如何獲取和使用皇家鑰匙
4 週前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系統,解釋
4 週前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆樹的耳語 - 如何解鎖抓鉤
4 週前 By 尊渡假赌尊渡假赌尊渡假赌
<🎜>掩蓋:探險33-如何獲得完美的色度催化劑
2 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1677
14
CakePHP 教程
1430
52
Laravel 教程
1333
25
PHP教程
1278
29
C# 教程
1257
24
ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star Jul 17, 2024 am 01:56 AM

同樣是圖生視頻,PaintsUndo走出了不一樣的路線。 ControlNet作者LvminZhang又開始整活了!這次瞄準繪畫領域。新項目PaintsUndo剛上線不久,就收穫1.4kstar(還在瘋狂漲)。項目地址:https://github.com/lllyasviel/Paints-UNDO透過這個項目,用戶輸入一張靜態圖像,PaintsUndo就能自動幫你生成整個繪畫的全過程視頻,從線稿到成品都有跡可循。繪製過程,線條變化多端甚是神奇,最終視頻結果和原始圖像非常相似:我們再來看一個完整的繪

arXiv論文可以發「彈幕」了,史丹佛alphaXiv討論平台上線,LeCun按讚 arXiv論文可以發「彈幕」了,史丹佛alphaXiv討論平台上線,LeCun按讚 Aug 01, 2024 pm 05:18 PM

乾杯!當論文討論細緻到詞句,是什麼體驗?最近,史丹佛大學的學生針對arXiv論文創建了一個開放討論論壇——alphaXiv,可以直接在任何arXiv論文之上發布問題和評論。網站連結:https://alphaxiv.org/其實不需要專門訪問這個網站,只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開相應論文:可以精準定位到論文中的段落、句子:右側討論區,使用者可以發表問題詢問作者論文想法、細節,例如:也可以針對論文內容發表評論,例如:「給出至

登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 Jul 17, 2024 pm 10:02 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com這篇論文的作者皆來自伊利諾大學香檳分校(UIUC)張令明老師團隊,包括:StevenXia,四年級博士生,研究方向是基於AI大模型的自動代碼修復;鄧茵琳,四年級博士生,研究方

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」 從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智慧領域的發展過程中,對大語言模型(LLM)的控制與指導始終是核心挑戰之一,旨在確保這些模型既強大又安全地服務人類社會。早期的努力集中在透過人類回饋的強化學習方法(RL

OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型給的答案一點也看不懂,你敢用嗎?隨著機器學習系統在更重要的領域中得到應用,證明為什麼我們可以信任它們的輸出,並明確何時不應信任它們,變得越來越重要。獲得對複雜系統輸出結果信任的一個可行方法是,要求系統對其輸出產生一種解釋,這種解釋對人類或另一個受信任的系統來說是可讀的,即可以完全理解以至於任何可能的錯誤都可以被發現。例如,為了建立對司法系統的信任,我們要求法院提供清晰易讀的書面意見,解釋並支持其決策。對於大型語言模型來說,我們也可以採用類似的方法。不過,在採用這種方法時,確保語言模型生

黎曼猜想显著突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 黎曼猜想显著突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近,被稱為千禧年七大難題之一的黎曼猜想迎來了新突破。黎曼猜想是數學中一個非常重要的未解決問題,與素數分佈的精確性質有關(素數是那些只能被1和自身整除的數字,它們在數論中扮演著基礎性的角色)。在當今的數學文獻中,已有超過一千個數學命題以黎曼猜想(或其推廣形式)的成立為前提。也就是說,黎曼猜想及其推廣形式一旦被證明,這一千多個命題將被確立為定理,對數學領域產生深遠的影響;而如果黎曼猜想被證明是錯誤的,那麼這些命題中的一部分也將隨之失去其有效性。新的突破來自MIT數學教授LarryGuth和牛津大學

LLM用於時序預測真的不行,連推理能力都沒用到 LLM用於時序預測真的不行,連推理能力都沒用到 Jul 15, 2024 pm 03:59 PM

語言模型真的能用於時序預測嗎?根據貝特里奇頭條定律(任何以問號結尾的新聞標題,都能夠用「不」來回答),答案應該是否定的。事實似乎也果然如此:強大如斯的LLM並不能很好地處理時序資料。時序,即時間序列,顧名思義,是指一組依照時間發生先後順序排列的資料點序列。在許多領域,時序分析都很關鍵,包括疾病傳播預測、零售分析、醫療和金融。在時序分析領域,近期不少研究者都在研究如何使用大型語言模型(LLM)來分類、預測和偵測時間序列中的異常。這些論文假設擅長處理文本中順序依賴關係的語言模型也能泛化用於時間序

首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源 首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源 Jul 17, 2024 am 02:46 AM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,当前的MLLM由众所周知的Transformer网络构成,这种网

See all articles