一招分辨刷榜作弊大模型，博士小哥開源AI數學'照妖鏡”-人工智慧-PHP中文網

马斯克Grok仅次于GPT-4，开源Llemma成绩出色

首頁

科技週邊

人工智慧

一招分辨刷榜作弊大模型，博士小哥開源AI數學'照妖鏡”

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Nov 17, 2023 pm 12:38 PM

ai 數據

如今很多大模型都声称擅长数学，谁有真才实学？谁是靠背测试题“作弊”的？

今年，有人在匈牙利全国数学期末考试刚刚公布的题目上进行了一次全面测试

很多模型一下子就“现原形”了。

一招分辨刷榜作弊大模型，博士小哥開源AI數學照妖鏡”

先看绿色部分，这些大模型在经典数学测试集GSM8k和全新卷子上取得的成绩差不多，共同组成参照标准。

再看红色部分，在GSM8K上的成绩显著高于同参数规模的大模型，一到全新卷子上成绩却明显下降，与同规模大模型差不多了。

研究者把他们归类为“疑似或已知在GSM8k上训练过”。

有人看过这项测试后表示，应该开始对那些从未见过的题目进行评测了

一招分辨刷榜作弊大模型，博士小哥開源AI數學照妖鏡”

有些人认为，这种测试和每个人对大型模型实际使用的经验，是目前唯一可靠的评估方法

一招分辨刷榜作弊大模型，博士小哥開源AI數學照妖鏡”

马斯克Grok仅次于GPT-4，开源Llemma成绩出色

测试者Keiran Paster是多伦多大学博士生、谷歌学生研究者，也是测试中Lemma大模型的作者之一。

一招分辨刷榜作弊大模型，博士小哥開源AI數學照妖鏡”

让大模型考匈牙利全国高中数学期末考试，这招出自马斯克的xAI。

为了排除xAI的Grok大模型无意中在网络数据中见过测试题的问题，除了几个常见的测试集，还额外进行了这项测试

这个考试今年5月底才考完，当前大模型基本没机会见过这套试题。

xAI发布时还公布了的GPT-3.5、GPT-4、Claude 2的成绩作为比较。

一招分辨刷榜作弊大模型，博士小哥開源AI數學照妖鏡”

在这组数据的基础上，Paster进行了进一步的测试，测试的对象是多个生成数学能力强的开源模型

并把测试题目、测试脚本、各模型回答结果都开源在了Huggingface上，供大家检验以及进一步测试其他模型。

一招分辨刷榜作弊大模型，博士小哥開源AI數學照妖鏡”

结果来看，GPT-4和Claude-2组成第一梯队，在GSM8k和新卷子上成绩都很高。

虽然这不代表GPT-4和Claude 2的训练数据中完全没有GSM8k的泄露题，但至少它俩泛化能力不错、能做对新题，就不计较了。

接下来，马斯克xAI的Grok-0（33B）和Grok-1（未公布参数规模）表现都不错。

Grok-1是“未作弊组”里成绩最高的，新卷子成绩甚至高过Claude 2。

Grok-0在GSM8k上的表现接近GPT3.5-Turbo，新卷子上略差一些。

除了上述几个封闭模型外，测试中的其他模型都是开源的

Code Llama系列是Meta自己在Llama 2基础上微调的，主打根据自然语言生成代码，现在看来数学能力比同规模的模型稍差。

一招分辨刷榜作弊大模型，博士小哥開源AI數學照妖鏡”

在Code Llama的基础上，多所大学和研究机构共同推出Llemma系列，并由EleutherAI开源。

团队从科学论文、包含数学的网络数据和数学代码中收集了Proof-Pile-2数据集，训练后的Llemma能使用工具和做形式定理证明，无需任何进一步的微调。

在新的卷子上，Llemma 34B的表现接近于GPT-3.5 Turbo水平

一招分辨刷榜作弊大模型，博士小哥開源AI數學照妖鏡”

Mistral系列則是法國AI獨角獸Mistral AI訓練的，Apache2.0開源協定比Llama更寬鬆，成為羊駝家族之後最受開源社群歡迎的基礎模型。

一招分辨刷榜作弊大模型，博士小哥開源AI數學照妖鏡”

「過擬合組」#裡的OpenChat 3.5和MetaMath Mistral都是基於Mistral生態微調而來。

MetaMath和MAmmoTH Code則是基於Code Llama生態。

選擇在實際業務中採用開源大模型的人需要小心避開這一組，因為它們很可能只是為了刷榜而表現出色，但實際能力可能不如同規模的其他模型強

一招分辨刷榜作弊大模型，博士小哥開源AI數學照妖鏡”

不少網友都對Paster這項試驗表示感謝，認為這正是了解模型實際情況所需要的。

一招分辨刷榜作弊大模型，博士小哥開源AI數學照妖鏡”

有些人表達了擔憂：

從這一天起，所有訓練大模型的人都會加入匈牙利歷年數學考試題。

同時他認為，解決辦法可能是有一家擁有專有測試的專門大模型評估公司。

一招分辨刷榜作弊大模型，博士小哥開源AI數學照妖鏡”

另一個提議是建立一個逐年更新的測試基準，來緩和過度擬合問題。

一招分辨刷榜作弊大模型，博士小哥開源AI數學照妖鏡”

以上是一招分辨刷榜作弊大模型，博士小哥開源AI數學'照妖鏡”的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

Java教學

1665

CakePHP 教程

1424

Laravel 教程

1321

PHP教程

1269

C# 教程

1249

Related knowledge

C 中的chrono庫如何使用？ Apr 28, 2025 pm 10:18 PM

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔，讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分，它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說，chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性，還提供了更高的精度和靈活性。讓我們從基礎開始，chrono庫主要包括以下幾個關鍵組件：std::chrono::system_clock：表示系統時鐘，用於獲取當前時間。 std::chron

如何理解C 中的DMA操作？ Apr 28, 2025 pm 10:09 PM

DMA在C 中是指DirectMemoryAccess，直接內存訪問技術，允許硬件設備直接與內存進行數據傳輸，不需要CPU干預。 1)DMA操作高度依賴於硬件設備和驅動程序，實現方式因係統而異。 2)直接訪問內存可能帶來安全風險，需確保代碼的正確性和安全性。 3)DMA可提高性能，但使用不當可能導致系統性能下降。通過實踐和學習，可以掌握DMA的使用技巧，在高速數據傳輸和實時信號處理等場景中發揮其最大效能。

怎樣在C 中處理高DPI顯示？ Apr 28, 2025 pm 09:57 PM

在C 中處理高DPI顯示可以通過以下步驟實現：1)理解DPI和縮放，使用操作系統API獲取DPI信息並調整圖形輸出；2)處理跨平台兼容性，使用如SDL或Qt的跨平台圖形庫；3)進行性能優化，通過緩存、硬件加速和動態調整細節級別來提升性能；4)解決常見問題，如模糊文本和界面元素過小，通過正確應用DPI縮放來解決。

C 中的實時操作系統編程是什麼？ Apr 28, 2025 pm 10:15 PM

C 在實時操作系統（RTOS）編程中表現出色，提供了高效的執行效率和精確的時間管理。 1）C 通過直接操作硬件資源和高效的內存管理滿足RTOS的需求。 2）利用面向對象特性，C 可以設計靈活的任務調度系統。 3）C 支持高效的中斷處理，但需避免動態內存分配和異常處理以保證實時性。 4）模板編程和內聯函數有助於性能優化。 5）實際應用中，C 可用於實現高效的日誌系統。

怎樣在C 中測量線程性能？ Apr 28, 2025 pm 10:21 PM

在C 中測量線程性能可以使用標準庫中的計時工具、性能分析工具和自定義計時器。 1.使用庫測量執行時間。 2.使用gprof進行性能分析，步驟包括編譯時添加-pg選項、運行程序生成gmon.out文件、生成性能報告。 3.使用Valgrind的Callgrind模塊進行更詳細的分析，步驟包括運行程序生成callgrind.out文件、使用kcachegrind查看結果。 4.自定義計時器可靈活測量特定代碼段的執行時間。這些方法幫助全面了解線程性能，並優化代碼。

量化交易所排行榜2025 數字貨幣量化交易APP前十名推薦 Apr 30, 2025 pm 07:24 PM

交易所內置量化工具包括：1. Binance（幣安）：提供Binance Futures量化模塊，低手續費，支持AI輔助交易。 2. OKX（歐易）：支持多賬戶管理和智能訂單路由，提供機構級風控。獨立量化策略平台有：3. 3Commas：拖拽式策略生成器，適用於多平台對沖套利。 4. Quadency：專業級算法策略庫，支持自定義風險閾值。 5. Pionex：內置16 預設策略，低交易手續費。垂直領域工具包括：6. Cryptohopper：雲端量化平台，支持150 技術指標。 7. Bitsgap：

給MySQL表添加和刪除字段的操作步驟 Apr 29, 2025 pm 04:15 PM

在MySQL中，添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column，刪除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段時，需指定位置以優化查詢性能和數據結構；刪除字段前需確認操作不可逆；使用在線DDL、備份數據、測試環境和低負載時間段修改表結構是性能優化和最佳實踐。