別讓大模型被基準評估坑了!測試集亂入預訓練,分數虛高,模型變傻
「別讓大模型被基準評估給坑了」。
這是一項最新研究的題目,來自人民大學資訊學院、高瓴人工智慧學院和伊利諾大學厄巴納-香檳分校。
研究發現,基準測試中相關資料意外被用於模型訓練的現象,變得越來越常見了。
因為預訓練語料包含許多公開文本資料,而評估基準也建立在這些資訊之上,本來這種情況就在所難免。
現在隨著大模型試圖蒐集更多公開數據,問題正在加重。
要知道,這種數據重疊帶來的危害非常大。
不僅會導致模型部分測驗分數虛高,還會使模型泛化能力下降、不相關任務表現驟降。甚至可能讓大模型在實際應用上產生「危害」。
所以這項研究正式發出警告,並透過多項模擬測試驗證了可能誘發的實際危害,具體來看。
大模型「被漏題」很危險
研究主要透過模擬極端洩漏資料的情況,來測試觀察大模型會產生的影響。
極端洩漏資料的方式有四種:
- 使用MMLU的訓練集
- 使用MMLU以外所有測試基準的訓練集
- 使用所有訓練集測試prompt
- 使用所有訓練集、測試集和測試prompt(這是最極端情況,僅為實驗模擬,正常情況下不會發生)
然後研究人員給4個大模型進行“投毒”,然後再觀察它們在不同benchmark中的表現,主要評估了在問答、推理、閱讀理解等任務中的表現。
所使用的模型分別是:
- GPT-Neo(1.3B)
- phi-1.5(1.3B)
- OpenLLaMA(3B )
- LLaMA-2(7B)
同時使用LLaMA(13B/30B/65B)作為對照組。
結果發現,當大模型的預訓練數據中包含了某一個評測基準的數據,它會在這一評測基準中表現更好,但在其他不相關任務中的表現會下降。
例如使用MMLU資料集訓練後,多個大模型在MMLU測試中分數提高的同時,在常識基準HSwag、數學基準GSM8K中分數下降。
這表示大模型的泛化能力受到影響。
另一方面,也可能造成不相關測驗分數虛高。
如上給大模型進行「投毒」的四個訓練集中僅包含少量中文數據,但是大模型被「投毒」後,在C3(中文基準測試)中的分數卻都變高了。
這種升高是不合理的。
這種訓練資料外洩的情況,甚至會導致模型測試分數,異常超越更大模型的表現。
例如phi-1.5(1.3B)在RACE-M和RACE-H上的表現優於LLaMA65B,後者是前者規模的50倍。
但這種分數上升沒有意義,只是作弊罷了。
更嚴重的是,即使是沒有外洩資料的任務,也會受到影響,表現下降。
下表中可以看到,在程式碼任務HEval中,兩個大模型都出現了分數大幅下降的情況。
同時被洩漏資料後,大模型的微調提升遠不如未洩露情況。
對於資料重疊/外洩的情況,本項研究分析了各種可能。
例如大模型預訓練語料和基準測試資料都會選用公開文本(網頁、論文等),所以發生重疊在所難免。
而且目前大模型評估都是在本地進行,或是透過API呼叫來獲得結果。這種方式無法嚴格檢查一些不正常的數值提升。
以及當下大模型的預訓練語料都被各方視為核心機密,外界無法評估。
所以導致了大模型被意外「投毒」的情況發生。
那該如何規避這一問題呢?研究團隊也出了一些建議。
如何規避?
研究團隊給了三點建議:
第一,實際情況中很難完全避免資料重疊,所以大模型應該採用多個基準測試進行更全面的評估。
第二,對於大模型開發者,應該要對資料進行脫敏,公開訓練語料的詳細構成。
第三,對於基準測試維護人員,應該提供基準測試資料來源,分析資料被污染的風險,使用更多樣化的提示進行多次評估。
不過團隊也表示本次研究中仍有一定限制。例如沒有對不同程度資料外洩進行系統性測試,以及沒能在預訓練中直接引入資料外洩進行模擬等。
本研究由中國人民大學資訊學院、高瓴人工智慧學院和伊利諾大學香檳分校的多位學者共同帶來。
在研究團隊中我們發現了兩位資料探勘領域大佬:文繼榮和韓家煒。
文繼榮教授現任中國人民大學高瓴人工智慧學院院長、中國人民大學資訊學院院長。主要研究方向為資訊檢索、資料探勘、機器學習、大規模神經網路模型的訓練與應用。
韓家煒教授領銜是資料探勘領域專家,現為伊利諾大學香檳分校電腦系教授,美國電腦協會院士與IEEE院士。
論文網址:https://arxiv.org/abs/2311.01964。
以上是別讓大模型被基準評估坑了!測試集亂入預訓練,分數虛高,模型變傻的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

本站6月27日訊息,剪映是由位元組跳動旗下臉萌科技開發的一款影片剪輯軟體,依託於抖音平台且基本面向該平台用戶製作短影片內容,並相容於iOS、安卓、Windows 、MacOS等作業系統。剪映官方宣布會員體系升級,推出全新SVIP,包含多種AI黑科技,例如智慧翻譯、智慧劃重點、智慧包裝、數位人合成等。價格方面,剪映SVIP月費79元,年費599元(本站註:折合每月49.9元),連續包月則為59元每月,連續包年為499元每年(折合每月41.6元) 。此外,剪映官方也表示,為提升用戶體驗,向已訂閱了原版VIP

5月30日,騰訊宣布旗下混元大模型全面升級,基於混元大模型的App「騰訊元寶」正式上線,蘋果及安卓應用程式商店皆可下載。相較於先前測試階段的混元小程式版本,面向工作效率場景,騰訊元寶提供了AI搜尋、AI總結、AI寫作等核心能力;面向日常生活場景,元寶的玩法也更加豐富,提供了多個特色AI應用,並新增了創建個人智能體等玩法。 「騰訊做大模型不爭一時之先。」騰訊雲副總裁、騰訊混元大模型負責人劉煜宏表示:「過去的一年,我們持續推進騰訊混元大模型的能力爬坡,在豐富、海量的業務場景中打磨技術,同時洞察用戶的真實需求

透過將檢索增強生成和語意記憶納入AI編碼助手,提升開發人員的生產力、效率和準確性。譯自EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG,作者JanakiramMSV。雖然基本AI程式設計助理自然有幫助,但由於依賴對軟體語言和編寫軟體最常見模式的整體理解,因此常常無法提供最相關和正確的程式碼建議。這些編碼助手產生的代碼適合解決他們負責解決的問題,但通常不符合各個團隊的編碼標準、慣例和風格。這通常會導致需要修改或完善其建議,以便將程式碼接受到應

想了解更多AIGC的內容,請造訪:51CTOAI.x社群https://www.51cto.com/aigc/譯者|晶顏審校|重樓不同於網路上隨處可見的傳統問題庫,這些問題需要跳脫常規思維。大語言模型(LLM)在數據科學、生成式人工智慧(GenAI)和人工智慧領域越來越重要。這些複雜的演算法提升了人類的技能,並在許多產業中推動了效率和創新性的提升,成為企業保持競爭力的關鍵。 LLM的應用範圍非常廣泛,它可以用於自然語言處理、文字生成、語音辨識和推薦系統等領域。透過學習大量的數據,LLM能夠產生文本

大型語言模型(LLM)是在龐大的文字資料庫上訓練的,在那裡它們獲得了大量的實際知識。這些知識嵌入到它們的參數中,然後可以在需要時使用。這些模型的知識在訓練結束時被「具體化」。在預訓練結束時,模型實際上停止學習。對模型進行對齊或進行指令調優,讓模型學習如何充分利用這些知識,以及如何更自然地回應使用者的問題。但是有時模型知識是不夠的,儘管模型可以透過RAG存取外部內容,但透過微調使用模型適應新的領域被認為是有益的。這種微調是使用人工標註者或其他llm創建的輸入進行的,模型會遇到額外的實際知識並將其整合

一、背景簡介首先來介紹雲問科技的發展歷程。雲問科技公...2023年,正是大模型盛行的時期,很多企業認為已經大模型之後圖譜的重要性大大降低了,之前研究的預置的資訊化系統也都不重要了。不過隨著RAG的推廣、資料治理的盛行,我們發現更有效率的資料治理和高品質的資料是提升私有化大模型效果的重要前提,因此越來越多的企業開始重視知識建構的相關內容。這也推動了知識的建構和加工開始向更高層次發展,其中有許多技巧和方法可以挖掘。可見一個新技術的出現,並不是將所有的舊技術打敗,也有可能將新技術和舊技術相互融合後

編輯|ScienceAI問答(QA)資料集在推動自然語言處理(NLP)研究中發揮著至關重要的作用。高品質QA資料集不僅可以用於微調模型,也可以有效評估大語言模型(LLM)的能力,尤其是針對科學知識的理解和推理能力。儘管目前已有許多科學QA數據集,涵蓋了醫學、化學、生物等領域,但這些數據集仍有一些不足之處。其一,資料形式較為單一,大多數為多項選擇題(multiple-choicequestions),它們易於進行評估,但限制了模型的答案選擇範圍,無法充分測試模型的科學問題解答能力。相比之下,開放式問答

6月13日消息,根據字節旗下「火山引擎」公眾號介紹,小米旗下人工智慧助理「小愛同學」與火山引擎達成合作,雙方基於豆包大模型實現更智慧的AI互動體驗。據悉,位元組跳動打造的豆包大模型,每日能夠高效處理數量多達1200億個的文本tokens、生成3000萬張內容。小米借助豆包大模型提升自身模型的學習與推理能力,打造出全新的“小愛同學”,不僅更加精準地把握用戶需求,還以更快的響應速度和更全面的內容服務。例如,當使用者詢問複雜的科學概念時,&ldq
