大模型走捷徑「刷榜」?數據污染問題值得重視
生成式 AI 元年,大家的工作節奏快了一大截。
特別是,今年大家都在努力捲大模型:最近國內外科技巨頭、新創公司都在輪番推出大模型,發表會一開,個個都是重大突破,每一家都是刷新了重要Benchmark 榜單,要么排第一,要么第一梯隊。
在興奮於技術進度速度之快後,許多人發現似乎也有些不對勁:為什麼排行榜第一人人有份?這是個什麼機制?
於是乎,「刷榜」這個問題也開始備受關注。
近日,我們關注到朋友圈和知乎社群對大模型「刷榜」這個問題的討論越來越多。特別是,知乎一篇文章:如何評價天工大模型技術報告中指出許多大模型用領域內資料刷榜的現象?引起了大家的討論。
連結:https://www.zhihu.com/question/628957425
多家大模型刷榜機制曝光
該研究來自崑崙萬維的「天工」大模型研究團隊,他們上個月底把一份技術報告發佈在了預印版論文平台arXiv 上。
論文連結:https://arxiv.org/abs/2310.19341
論文本身就是在介紹Skywork-13B,這是天工的一個大型語言模型(LLM)系列。作者引入了使用分段語料庫的兩階段訓練方法,分別針對通用訓練和特定領域的增強訓練。
和往常有關大模型的新研究一樣,作者表示在流行的測試基準上,他們的模型不僅表現出色,而且在許多中文的分支任務上取得了state- of-art 水準(就是業界最佳)。
重點是,該報告還驗證了下許多大模型的真實效果,指出了一些其他一些國產大模型存在投機取巧的嫌疑。說的就是這個表格8:
在這裡,作者為了驗證目前業界幾個常見大模型在數學應用問題基準GSM8K 上的過擬合程度,使用GPT-4 產生了一些與GSM8K 形式上相同的樣本,人工核對了正確性,並讓這些模型在生成的資料集,和GSM8K 原本的訓練集、測試集上比了比,計算了損失。然後還有兩個指標:
#Δ1 作為模型訓練期間潛在測試資料外洩的指標,較低的值表示可能存在洩漏。沒有用測試集訓練,那個數值應該是零。
Δ2 測量資料集訓練分割的過度擬合程度。較高的 Δ2 值表示過度擬合。如果沒有用訓練集訓練過,那數值應該是零。
用簡單的話來解釋就是:如果有模型在訓練的時候,直接拿基準測試裡面的「真題」和「答案」來當學習資料,想以此來刷分,那麼此處就會有異常。
好的,Δ1 和 Δ2 有問題的地方,上面都貼心地以灰色突出顯示了。
網友對此評論道,終於有人把「資料集污染」這個公開的秘密說出來了。
也有網友表示,大模型的智力水平,還是要看 zero-shot 能力,現有的測驗基準都做不到。
圖:截圖自知乎網友評論
在作者與讀者互動中,作者也表示,希望「讓大家更理性看待刷榜這個事情,很多模型和 GPT4 的差距還很大」。
圖:截圖自知文章https://zhuanlan.zhihu.com/p/664985891
#資料污染問題值得重視
其實,這並不是一時的現象。自從有了 Benchmark,此類問題時常會有發生,就像今年 9 月份 arXiv 上一篇極具嘲諷意味的文章標題指出的一樣 Pretraining on the Test Set Is All You Need。
除此之外,最近人民大學、伊利諾大學香檳分校一個正式研究同樣指出了大模型評估中存在的問題。標題很紮眼《Don't Make Your LLM an Evaluation Benchmark Cheater》:
論文連結:https://arxiv.org/abs/ 2311.01964
論文指出,目前火熱的大模型領域讓人們關心基準測試的排名,但其公平性和可靠性正在受到質疑。其中主要的問題是資料污染和洩露,這樣的問題可能會被無意識地觸發,因為我們在準備預訓練語料庫時可能不知道未來的評估資料集。例如,GPT-3 發現預訓練語料庫中包含了 Children's Book Test 資料集,LLaMA-2 的論文曾提到擷取了 BoolQ 資料集中的上下文網頁內容。
資料集是需要很多人花費大量精力收集、整理和標註的,優質的資料集如果優秀到能被用於評測,那自然也有可能會被另一些人用於訓練大模型。
另一方面,在使用現有基準進行評估時,我們評測的大模型的結果大多是透過在本機伺服器上執行或透過 API 呼叫來獲得的。在此過程中,沒有嚴格檢查任何可能導致評估績效異常增加的不當方式(例如資料污染)。
更糟的是,訓練語料庫的詳細組成(例如資料來源)通常被視為現有大模型的核心「秘密」。這就更難去探究資料污染的問題了。
也就是說,優秀資料的數量是有限的,在許多測試集上,GPT-4 和Llama-2 也不一定就沒問題。例如在第一篇論文中提到的 GSM8K,GPT-4 在官方 technical report 裡提到使用了它的訓練集。
你不是說資料很重要嗎,那麼用「真題」刷分的大模型,效能會不會因為訓練資料更優秀而變得更好呢?答案是否定的。
研究人員實驗發現,基準洩漏會導致大模型跑出誇張的成績:例如 1.3B 的模型可以在某些任務上超越 10 倍體積的模型。但副作用是,如果我們只使用這些洩漏的資料來微調或訓練模型,這些專門應試的大模型在其他正常測試任務上的表現可能會受到不利影響。
因此作者建議,以後研究者在評測大模型,或是研究新技術時應該:
- 使用更多來自不同來源的基準,涵蓋基本能力(例如文本生成)和高級能力(例如複雜推理),以全面評估 LLM 的能力。
- 在使用評估基準時,在預訓練資料和任何相關資料(例如訓練和測試集)之間執行資料淨化檢查非常重要。此外,還需要報告評估基準的污染分析結果作為參考。如有可能,建議公開預訓練資料的詳細組成。
- 建議應採用多樣化的測試提示來減少提示敏感度的影響。在基準資料和現有預訓練語料庫之間進行污染分析,提醒任何潛在的污染風險也很有意義。為了進行評估,建議每次提交都附有一份特殊的污染分析報告。
最後想說,好在這個問題開始逐漸引起大家的關注,無論是技術報告、論文研究還是社區討論,都開始重視大模型「刷榜」的問題了。
對此,你有什麼看法與有效建議呢?
以上是大模型走捷徑「刷榜」?數據污染問題值得重視的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

在iPhone上面臨滯後,緩慢的行動數據連線?通常,手機上蜂窩互聯網的強度取決於幾個因素,例如區域、蜂窩網絡類型、漫遊類型等。您可以採取一些措施來獲得更快、更可靠的蜂窩網路連線。修復1–強制重啟iPhone有時,強制重啟設備只會重置許多內容,包括蜂窩網路連線。步驟1–只需按一次音量調高鍵並放開即可。接下來,按降低音量鍵並再次釋放它。步驟2–過程的下一部分是按住右側的按鈕。讓iPhone完成重啟。啟用蜂窩數據並檢查網路速度。再次檢查修復2–更改資料模式雖然5G提供了更好的網路速度,但在訊號較弱

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP
