數據更多更好還是品質更高更好?這項研究能幫你做出選擇
對基礎模型進行 scaling 是指使用更多資料、運算和參數進行預先訓練,簡單來說就是「規模擴展」。
雖然直接擴展模型規模看起來簡單粗暴,但也確實為機器學習社群帶來了不少表現突出的模型。先前不少研究都認可擴大神經經濟模型規模的做法,所謂量變引起質變,這種觀點也被稱為神經擴展律(neural scaling laws)。 然而,隨著模型規模的增加,帶來的是計算資源的密集消耗。這意味著更大規模的模型需要更多的運算資源,包括處理器和記憶體。這對於許多實際應用來說是不可行的,尤其是在資源有限的設備上。 因此,研究人員開始關注如何更有效率地使用運算資源以提高模數
近段時間,又有不少人認為「資料」才是那些目前最佳的關閉來源模型的關鍵,不管是LLM、VLM 還是擴散模型。隨著數據品質的重要性得到認可,已經湧現了不少旨在提升數據品質的研究:要么是從大型資料庫中過濾出高品質數據,要么是產生高品質的新數據。但是,過去的擴展律一般是將「資料」視為一個同質實體,並未將近期人們關注的「資料品質」視為一個考量維度。
儘管網路上的資料模型龐大,但高品質資料(基於多個評估指標)通常很有限。現在,開創性的研究來了──資料過濾維度上的擴展律!它來自卡內基梅隆大學和Bosch Center for AI,其中尤其關注了“大規模”與“高品質”之間的數量 - 品質權衡(QQT)。
- #論文標題:Scaling Laws for Data Filtering—Data Curation cannot be Compute Agnostic
- 論文網址:https://arxiv.org/pdf/2404.07177.pdf
程式碼位址:https://github.com/locuslab/scaling_laws_data_filtering
如圖1 所示,當訓練多個epoch 時,高品質資料的效用(utility)就不大了(因為模型已經完成了學習)。
#此時,使用更低品質的資料(一開始的效用較小)往往比重複使用高品質資料更有助益。
在數量 - 品質權衡(QQT)之下,我們該如何確定訓練使用怎樣的資料搭配更好?
為了解答這個問題,任何資料整編(data curation)工作流程都必須考慮模型訓練所用的總計算量。這不同於社區對資料過濾(data filtering)的看法。舉個例子,LAION 過濾策略是從常見爬取結果中提取出品質最高的 10%。
但從圖2 可以看出,很明顯一旦訓練超過35 epoch,在完全未整編的數據集上訓練的效果優於在使用LAION 策略整編的高質量數據上訓練的效果。
目前的神經擴展律無法建模品質與數量之間這種動態的權衡。此外,視覺 - 語言模型的擴展律研究甚至更更少,目前的大多數研究都僅限於語言建模領域。
今天我們要介紹的這項開創性研究攻克了先前的神經擴展律的三大重要局限,其做到了:########### #(1)在擴展資料時考慮「質量」這個軸;############(2)估計資料池組合的擴展律(而無需真正在該組合上進行訓練),這有助於引導實現最優的資料整編決策;############(3)調整LLM 擴充律,使其適用於對比訓練(如CLIP),其中每一批都有平方數量的比較次數。 ######
團隊首次針對異質和數量有限的網路數據提出了擴展律。
大型模型是在多種品質的資料池組合上訓練完成的。透過對從各個資料池的擴散參數(如圖 1 (a) 中的 A-F)派生的聚合資料效用進行建模,就可以直接估計模型在這些資料池的任意組合上的表現。
需要重點指出,這種方法並不需要在這些資料池組合上進行訓練就能估計它們的擴展律,而是可以根據各個組成池的擴展參數直接估計它們的擴展曲線。
比起過去的擴展律,這裡的擴展律有一些重要差異,可以建模對比訓練機制中的重複,實現 O (n²) 比較。舉個例子,如果訓練池的大小倍增,模型損失有影響的比較次數就會變成原來的四倍。
他們用數學形式描述了來自不同池的數據的相互交互方式,從而可以在不同的數據組合下估計模型的性能。這樣便可以得到適合目前可用計算的資料整編策略。
這項研究給出的一個關鍵訊息是:資料整編不能脫離計算進行。
當計算預算少時(更少重複),在 QQT 權衡下質量優先,如圖 1 中低計算量下的激進過濾(E)的最佳性能所示。
另一方面,當計算規模遠超過所用訓練資料時,有限高品質資料的效用會下降,就需要想辦法彌補這一點。這會得到不那麼激進的過濾策略,即當資料量更大時效能更好。
團隊進行了實驗論證,結果顯示這個用於異質網路資料的新擴展律能夠使用DataComp 的中型池(128M 樣本)預測從32M 到640M 的各種計算預算下的帕累托最優過濾策略。
一定計算預算下的資料過濾
該團隊透過實驗研究了不同計算預算下資料濾波的效果。
他們使用一個大型初始資料池訓練了一個 VLM。至於基礎的未過濾資料池,他們選用了近期的資料整編基準 Datacomp 的「中等」規模版本。此資料池包含 128M 樣本。他們使用了 18 個不同的下游任務,評估的是模型的零樣本表現。
他們首先研究了用於獲得 LAION 資料集的 LAION 過濾策略,結果見圖 2。他們觀察到了以下結果:
1. 在計算預算低時,使用高品質數據會更好。
2. 當計算預算高時,資料過濾會造成妨害。
原因為何?
LAION 篩選會保留資料中約 10% 的數據,因此計算預算約為 450M,來自已篩選 LAION 池的每個樣本會被使用約 32 次。這裡的關鍵見解是:對於同一個樣本,如果在訓練過程中被多次看見,那麼每一次所帶來的效用就會下降。
之後該團隊又研究了其它兩種資料過濾方法:
(1)CLIP 分數過濾,使用了CLIP L/14模型;
(2)T-MARS,在遮蔽了影像中的文字特徵(OCR)後基於CLIP 分數對資料進行排名。對於每種資料過濾方法,他們採用了四個過濾層級和多種不同的總計算量。
圖 3 給出了在計算規模為 32M、128M、640M 時 Top 10-20%、 Top 30%、Top 40% CLIP 濾波的結果比較。
在32M 計算規模時,高度激進的過濾策略(根據CLIP 分數僅保留前10-20%)得到的結果最好,而最不激進的保留前40% 的過濾方法表現最差。但是,當計算規模擴展到 640M 時,這個趨勢就完全反過來了。使用 T-MARS 評分指標也能觀察到類似的趨勢。
資料過濾的擴展律
該團隊首先以數學方式定義了效用(utility)。
他們的做法不是估計 n 的樣本在訓練結束時的損失,而是考慮一個樣本在訓練階段的任意時間點的瞬時效用。其數學公式為:
這表明,一個樣本的瞬時效用正比於當前損失且反比於目前所見到的樣本數。這也符合我們的直覺想法:當模型看到的樣本數量變多,樣本的效用就會下降。其中的重點是數據效用參數 b 。
接下來是資料重複使用之下的效用。
數學上,一個被見到k 1 次的樣本的效用參數b 的定義為:
其中τ 是效用參數的半衰期。 τ 值越高,樣本效用隨著重複而衰減得越慢。 δ 則是效用隨重複的衰減情況的簡潔寫法。那麼,模型在看過n 個樣本且每個樣本都被看過k 次之後的損失的表達式就為:
其中n_j 是第j 輪訓練epoch 結束時的模型看到的樣本數。這一等式是新提出的擴展律的基礎。
最後,還有一層複雜性,就是異質的網路資料。
然後就得到了他們給出的定理:給定隨機均勻取樣的p 個資料池,其各自的效用和重複參數分別為(b_1, τ_1)... (b_p, τ_p),則每個bucket 的新重複半衰期就為τˆ = p・τ。此外,組合後的資料池在第 k 輪重複時的有效效用值 b_eff 是各個效用值的加權平均值。其數學形式為:
#其中,這是新的每bucket 衰減參數。
最後,可以在 (3) 式中使用上述定理中的 b_eff,就能估計出在資料池組合上進行訓練時的損失。
針對各種資料效用池擬合擴展曲線
#該團隊用實驗探究了新提出的擴展律。
圖 4 給出了一個擬合後的各種資料效用池的擴展曲線,其使用的資料效用指標是 T-MARS 分數。
圖 4 的第 2 列顯示各個資料池的效用會隨 epoch 增多而降低。以下是團隊給出的一些重要觀察:
#1. 網路資料是異質的,無法透過單一一組擴充參數進行建模。
2. 不同資料池有不同的資料多樣性。
3. 具有重複現象的高品質資料的效果趕不上直接使用低品質資料。
結果:在QQT 下為資料組合估計擴展律
前面針對不同品質的資料池推斷了各自對應的參數a、 b、d、τ。而這裡的目標是確定當給定了訓練計算預算時,最有效的資料整編策略是什麼。
透過前面的定理以及各個資料池的擴展參數,現在就能估計不同池組合的擴展律了。舉個例子,可以認為 Top-20% 池是 Top-10% 和 Top 10%-20% 池的組合。然後,這種來自擴展曲線的趨勢可以用於預測給定計算預算下的帕累托最優資料過濾策略。
圖 5 給出了不同資料組合的擴展曲線,這是在 ImageNet 上評估的。
這裡需要強調,這些曲線是基於上述定理,直接根據各個組成池的擴展參數估計的。他們並未在這些資料池組合上訓練來估計這些擴展曲線。散點是實際的測試性能,其作用是驗證估計得到的結果。
可以看到:(1)當計算預算低 / 重複次數少時,激進的過濾策略是最好的。
(2)資料整編不能脫離計算進行。
對擴展曲線進行擴展
#2023 年Cherti et al. 的論文《 Reproducible scaling laws for contrastive language-image learning》研究了針對CLIP 模型提出的擴展律,其中訓練了計算規模在3B 到34B 訓練樣本之間的數十個模型,並且模型涵蓋不同的ViT 系列模型。在這樣的計算規模上訓練模型的成本非常高。 Cherti et al. (2023) 的目標是為這一系列的模型擬合擴展律,但對於在小資料集上訓練的模型,其擴展曲線有很多錯誤。
CMU 這個團隊認為這主要是因為他們沒考慮到重複使用資料造成的效用下降問題。於是他們使用新提出的擴展律來估計了這些模型的誤差。
圖 6 是修正之後擴展曲線,其能以很高的準確度預測誤差。
這表示新提出的擴展律適用於用34B 資料計算訓練的大型模型,這說明在預測模型訓練結果時,新的擴展律確實能考慮到重複數據的效用下降情形。
更多技術細節和實驗結果請參考原文。
以上是數據更多更好還是品質更高更好?這項研究能幫你做出選擇的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

DDREASE是一種用於從檔案或區塊裝置(如硬碟、SSD、RAM磁碟、CD、DVD和USB儲存裝置)復原資料的工具。它將資料從一個區塊設備複製到另一個區塊設備,留下損壞的資料區塊,只移動好的資料區塊。 ddreasue是一種強大的恢復工具,完全自動化,因為它在恢復操作期間不需要任何干擾。此外,由於有了ddasue地圖文件,它可以隨時停止和恢復。 DDREASE的其他主要功能如下:它不會覆寫恢復的數據,但會在迭代恢復的情況下填補空白。但是,如果指示工具明確執行此操作,則可以將其截斷。將資料從多個檔案或區塊還原到單

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

在iPhone上面臨滯後,緩慢的行動數據連線?通常,手機上蜂窩互聯網的強度取決於幾個因素,例如區域、蜂窩網絡類型、漫遊類型等。您可以採取一些措施來獲得更快、更可靠的蜂窩網路連線。修復1–強制重啟iPhone有時,強制重啟設備只會重置許多內容,包括蜂窩網路連線。步驟1–只需按一次音量調高鍵並放開即可。接下來,按降低音量鍵並再次釋放它。步驟2–過程的下一部分是按住右側的按鈕。讓iPhone完成重啟。啟用蜂窩數據並檢查網路速度。再次檢查修復2–更改資料模式雖然5G提供了更好的網路速度,但在訊號較弱

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

什麼?瘋狂動物城被國產AI搬進現實了?與影片一同曝光的,是一款名為「可靈」全新國產影片生成大模型。 Sora利用了相似的技術路線,結合多項自研技術創新,生產的影片不僅運動幅度大且合理,還能模擬物理世界特性,具備強大的概念組合能力與想像。數據上看,可靈支持生成長達2分鐘的30fps的超長視頻,分辨率高達1080p,且支援多種寬高比。另外再劃個重點,可靈不是實驗室放出的Demo或影片結果演示,而是短影片領域頭部玩家快手推出的產品級應用。而且主打一個務實,不開空頭支票、發布即上線,可靈大模型已在快影

多模態文件理解能力新SOTA!阿里mPLUG團隊發布最新開源工作mPLUG-DocOwl1.5,針對高解析度圖片文字辨識、通用文件結構理解、指令遵循、外部知識引入四大挑戰,提出了一系列解決方案。話不多說,先來看效果。複雜結構的圖表一鍵識別轉換為Markdown格式:不同樣式的圖表都可以:更細節的文字識別和定位也能輕鬆搞定:還能對文檔理解給出詳細解釋:要知道,“文檔理解”目前是大語言模型實現落地的一個重要場景,市面上有許多輔助文檔閱讀的產品,有的主要透過OCR系統進行文字識別,配合LLM進行文字理
