首頁 科技週邊 人工智慧 13B模型在與GPT-4的全面對決中佔優勢?背後是否存在某些不尋常的情況?

13B模型在與GPT-4的全面對決中佔優勢?背後是否存在某些不尋常的情況?

Nov 18, 2023 am 11:39 AM
ai 模型

一個參數量為13B的模型竟然能擊敗頂級的GPT-4?就像下圖所示,為了確保結果的有效性,這項測試也遵循了OpenAI的數據去噪方法,並且沒有發現任何數據污染的證據

13B模型在與GPT-4的全面對決中佔優勢?背後是否存在某些不尋常的情況?

觀察圖中的模型,你會發現只要帶有「rephraser」這個詞,模型的表現都相對較高

##這背後到底有何貓膩?原來是資料污染了,即測試集資訊在訓練集中遭到洩漏,而且這種污染還不易被偵測到。儘管這個問題非常關鍵,但理解和檢測污染仍然是一個開放且具有挑戰性的難題。

現階段,去污最常用的方法是n-gram 重疊和嵌入相似性搜尋:N-gram 重疊依賴字串匹配來檢測污染,是GPT-4、 PaLM 和Llama-2 等模型常用方法;嵌入相似性搜尋使用預訓練模型(例如BERT)的嵌入來尋找相似且可能受到污染的範例。

然而,來自 UC 柏克萊、上海交通大學的研究表明測試數據的簡單變化(例如,改寫、翻譯)就可以輕鬆繞過現有的檢測方法。他們並將測試案例的此類變體稱為「需要改寫的內容是:改寫樣本(Rephrased Samples)」。

以下是MMLU基準測試中需要改寫的內容是:改寫樣本的示範結果。結果表明,如果訓練集中包含這種樣本,13B模型可以達到非常高的表現(MMLU 85.9)。可惜的是,現有的檢測方法(如n-gram重疊和嵌入相似性)無法偵測到這種污染。例如,嵌入相似性方法很難將改寫問題與同一主題中的其他問題區分開來

13B模型在與GPT-4的全面對決中佔優勢?背後是否存在某些不尋常的情況?

#透過類似的改寫技術,本文在在廣泛使用的編碼和數學基準測試中觀察到一致的結果,例如HumanEval 和GSM-8K(如文章開頭圖中所示)。因此,能夠檢測此類需要改寫的內容是:改寫樣本變得至關重要。

接下來,我們來看看這項研究是如何進行的。

13B模型在與GPT-4的全面對決中佔優勢?背後是否存在某些不尋常的情況?


  • #論文網址:https://arxiv.org/pdf/2311.04850 .pdf
  • 專案網址:https://github.com/lm-sys/llm-decontaminator#detect

論文介紹

隨著大模型(LLM)的快速發展,人們對測試集污染問題的關注越來越多。許多人對公共基準的可信度表示擔憂

為了解決這個問題,有些人使用傳統的去污方法,例如字串匹配(如n-gram重疊),來刪除基準資料。然而,這些操作遠遠不夠,因為只需對測試資料進行一些簡單的更改(例如改寫、翻譯),就可以輕鬆地繞過這些淨化措施

如果不消除測試數據的這種更改,13B 模型很容易過度擬合測試基準並實現與GPT-4 相當的性能,這是更重要的。研究人員在MMLU、GSK8k 和HumanEval 等基準測試中驗證了這些觀察結果

同時為了解決這些日益增長的風險,本文也提出了一種更強大的基於LLM的去污方法LLM decontaminator,並將其應用於流行的預訓練和微調資料集,結果表明,本文提出的LLM 方法在刪除需要改寫的內容是:改寫樣本方面明顯優於現有方法。

這個做法也揭露了一些先前未知的測試重疊(test overlap)。例如,在 RedPajamaData-1T 和 StarCoder-Data 等預訓練集中,本文發現 HumanEval 基準有 8-18% 重疊。此外,本文也在 GPT-3.5/4 產生的合成資料集中發現了這種污染,這也說明了在 AI 領域存在潛在的意外污染風險。

我們希望透過本文,呼籲社區在使用公共基準時採取更加強有力的淨化方法,並積極開發新的一次性測試案例來準確評估模型

需要改寫的內容是:改寫樣本

本文的目標是調查訓練集中包含測試集的簡單變更是否會影響最終的基準效能,並將測試案例的這種變化稱為「需要改寫的內容是:改寫樣本」。實驗中考慮了基準的各個領域,包括數學、知識和編碼。範例 1 是來自 GSM-8k 的需要改寫的內容是:改寫樣本,其中有 10-gram 重疊無法偵測到,修改後和原始文字保持相同的語意。


13B模型在與GPT-4的全面對決中佔優勢?背後是否存在某些不尋常的情況?

改寫技術針對不同形式的基準污染有微小差異。在基於文本的基準測試中,本文透過重新排列詞序或使用同義詞替換等手段,對測試案例進行改寫,以達到不改變語意的目的。而在基於程式碼的基準測試中,本文則透過改變編碼風格、命名方式等方式進行改寫

如下所示,演算法1 中針對給定的測試集提出了一種簡單的演算法。此方法可以幫助測試樣本逃避檢測。

13B模型在與GPT-4的全面對決中佔優勢?背後是否存在某些不尋常的情況?

接下來本文提出了一種新的污染檢測方法,可以準確地從相對於基準的資料集中刪除需要改寫的內容是:改寫樣本。

具體而言,本文引進了 LLM decontaminator。首先,對於每個測試案例,它使用嵌入相似度搜尋來識別具有最高相似度的 top-k 訓練項,之後透過 LLM(例如 GPT-4)評估每一對是否相同。這種方法有助於確定資料集中有多少需要改寫的內容是:改寫樣本。

在圖4中展示了不同污染與不同偵測方法的維恩圖

13B模型在與GPT-4的全面對決中佔優勢?背後是否存在某些不尋常的情況?

實驗

在第5.1 節中,實驗證明了在需要改寫的內容是:改寫樣本上訓練的模型可以取得顯著的高分,在三在廣泛使用的基準(MMLU、HumanEval 和GSM-8k)中實現與GPT-4 相當的性能,這表明需要改寫的內容是:改寫樣本應被視為污染,應從訓練資料中刪除。在第 5.2 節中,本文根據 MMLU/HumanEval 中需要改寫的內容是:改寫樣本評估不同的污染檢測方法。在第 5.3 節中,本文將 LLM decontaminator 應用於廣泛使用的訓練集並發現先前未知的污染。

我們接下來來看一些主要的結果

#需要改寫的內容是:重寫污染標準樣本

如表2 所示,在需要改寫的內容是:改寫樣本上訓練的Llama-2 7B 和13B 在MMLU 上取得顯著的高分,從45.3 到88.5。這表示經過改寫的樣本可能會嚴重扭曲基準數據,應視為污染。

13B模型在與GPT-4的全面對決中佔優勢?背後是否存在某些不尋常的情況?

本文也對HumanEval 測試集進行了改寫,並將其翻譯成五種程式語言:C、JavaScript 、Rust、Go 和Java。結果顯示,在需要改寫的內容是:改寫樣本上訓練的 CodeLlama 7B 和 13B 在 HumanEval 上可以取得極高的分數,分別從 32.9 到 67.7 以及 36.0 到 81.1。相比之下,GPT-4 在 HumanEval 上只能達到 67.0。

13B模型在與GPT-4的全面對決中佔優勢?背後是否存在某些不尋常的情況?

下表 4 也取得了相同的效果:

13B模型在與GPT-4的全面對決中佔優勢?背後是否存在某些不尋常的情況?

對偵測污染方法的評估

如表5 所示,除LLM decontaminator 外,所有其他檢測方法都會引入一些誤報。改寫翻譯的樣本都不會被 n-gram 重疊偵測到。使用 multi-qa BERT,嵌入相似性搜尋被證明對翻譯樣本完全無效。

13B模型在與GPT-4的全面對決中佔優勢?背後是否存在某些不尋常的情況?

#資料集的污染狀況

13B模型在與GPT-4的全面對決中佔優勢?背後是否存在某些不尋常的情況?

##在表7中,顯示了每個訓練資料集中不同基準的資料污染百分比

13B模型在與GPT-4的全面對決中佔優勢?背後是否存在某些不尋常的情況?

#LLM decontaminator 揭示了79 個自需要改寫的內容是:改寫樣本的實例,佔MATH 測試集的1.58%。範例 5 是 MATH 訓練資料中 MATH 測試的改寫範例。 #####################請查看原始論文以獲取更多資訊######

以上是13B模型在與GPT-4的全面對決中佔優勢?背後是否存在某些不尋常的情況?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

排名前十的虛擬幣交易app有哪 最新數字貨幣交易所排行榜 排名前十的虛擬幣交易app有哪 最新數字貨幣交易所排行榜 Apr 28, 2025 pm 08:03 PM

Binance、OKX、gate.io等十大數字貨幣交易所完善系統、高效多元化交易和嚴密安全措施嚴重推崇。

比特幣今日價格行情 比特幣今日價格行情 Apr 28, 2025 pm 07:39 PM

比特幣今日價格波動受宏觀經濟、政策、市場情緒等多因素影響,投資者需關注技術和基本面分析以做出明智決策。

全球幣圈十大交易所有哪些 排名前十的貨幣交易平台最新版 全球幣圈十大交易所有哪些 排名前十的貨幣交易平台最新版 Apr 28, 2025 pm 08:09 PM

全球十大加密貨幣交易平台包括Binance、OKX、Gate.io、Coinbase、Kraken、Huobi Global、Bitfinex、Bittrex、KuCoin和Poloniex,均提供多種交易方式和強大的安全措施。

解密Gate.io戰略升級:MeMebox 2.0如何重新定義加密資產管理? 解密Gate.io戰略升級:MeMebox 2.0如何重新定義加密資產管理? Apr 28, 2025 pm 03:33 PM

MeMebox 2.0通過創新架構和性能突破重新定義了加密資產管理。 1) 它解決了資產孤島、收益衰減和安全與便利悖論三大痛點。 2) 通過智能資產樞紐、動態風險管理和收益增強引擎,提升了跨鏈轉賬速度、平均收益率和安全事件響應速度。 3) 為用戶提供資產可視化、策略自動化和治理一體化,實現了用戶價值重構。 4) 通過生態協同和合規化創新,增強了平台的整體效能。 5) 未來將推出智能合約保險池、預測市場集成和AI驅動資產配置,繼續引領行業發展。

靠譜的數字貨幣交易平台推薦 全球十大數字貨幣交易所排行榜2025 靠譜的數字貨幣交易平台推薦 全球十大數字貨幣交易所排行榜2025 Apr 28, 2025 pm 04:30 PM

靠谱的数字货币交易平台推荐:1. OKX,2. Binance,3. Coinbase,4. Kraken,5. Huobi,6. KuCoin,7. Bitfinex,8. Gemini,9. Bitstamp,10. Poloniex,这些平台均以其安全性、用户体验和多样化的功能著称,适合不同层次的用户进行数字货币交易

C  中的chrono庫如何使用? C 中的chrono庫如何使用? Apr 28, 2025 pm 10:18 PM

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔,讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分,它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說,chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性,還提供了更高的精度和靈活性。讓我們從基礎開始,chrono庫主要包括以下幾個關鍵組件:std::chrono::system_clock:表示系統時鐘,用於獲取當前時間。 std::chron

比特幣值多少美金 比特幣值多少美金 Apr 28, 2025 pm 07:42 PM

比特幣的價格在20,000到30,000美元之間。 1. 比特幣自2009年以來價格波動劇烈,2017年達到近20,000美元,2021年達到近60,000美元。 2. 價格受市場需求、供應量、宏觀經濟環境等因素影響。 3. 通過交易所、移動應用和網站可獲取實時價格。 4. 比特幣價格波動性大,受市場情緒和外部因素驅動。 5. 與傳統金融市場有一定關係,受全球股市、美元強弱等影響。 6. 長期趨勢看漲,但需謹慎評估風險。

全球幣圈十大交易所有哪些 排名前十的貨幣交易平台2025 全球幣圈十大交易所有哪些 排名前十的貨幣交易平台2025 Apr 28, 2025 pm 08:12 PM

2025年全球十大加密貨幣交易所包括Binance、OKX、Gate.io、Coinbase、Kraken、Huobi、Bitfinex、KuCoin、Bittrex和Poloniex,均以高交易量和安全性著稱。

See all articles