從高考到奧林匹克競技場：大模型與人類智慧的終極較量-人工智慧-PHP中文網

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

上海交通大学生成式人工智能实验室（GAIR Lab）的研究团队，主要研究方向是：大模型训练、对齐与评估。团队主页：https://plms.ai/

在未来20年内，AI有望超过人类的智能水平。图灵奖得主Hinton在他的访谈中提及“在未来20年内，AI有望超越人类的智能水平”，并建议各大科技公司早做准备，评定大模型（包括多模态大模型）的“智力水平”则是这一准备的必要前提。

一个具有跨学科问题集、可以从多维度严谨评估AI的认知推理能力评估基准已经变得相当亟需。

1. 大模型不断占领人类智力高地：从小学试题到参加高考

從高考到奧林匹克競技場：大模型與人類智慧的終極較量

以大模型为核心的生成式人工智能技术的兴起，使得人类不仅有了可交互的文本、從高考到奧林匹克競技場：大模型與人類智慧的終極較量、视频交互生成工具，还使得人类有机会训练出一个”有智力“能力的模型，它可以看成是人类延申的大脑，独立完成不同学科问题，成为未来10年可以给科学发现提供加速度的最有力的工具（即AI4Science)。

过去两年，我们看到这种以大模型为代表的硅基智能的快速进化，从最初只能用来去解决小学题目, 到2022年，CMU等人[1]第一次把AI带到了“高考”考场，并在全国卷II英语上取得了134分的成绩，然而，那时候的AI还是个数理逻辑掌握不好的偏科生。直至今年，2024高考刚刚落下帷幕，在无数学子在这一年一度的大考中奋力拼搏，展现了他们多年来的学习成果的同时，大模型也是空前第一次被全学科的拉到考场，并且在数理学科中取得巨大进步。这里我们不禁思考，AI智力进化的天花板在哪？人类还没祭出最难的题目，那会是AI的天花板吗？

從高考到奧林匹克競技場：大模型與人類智慧的終極較量

2. 智力较量最高殿堂：从 AI 高考到 AI 奥运会

四年一度的奥运会也即将到来，这不仅是体育竞技的巅峰盛会，更象征着人类对极限的不断追求和突破。学科奥林匹克竞赛则是知识的深度与智力的极限的完美结合，它既是对学术成就的严格评估，也是对思维敏捷性和创新能力的极限挑战。在这里，科学的严谨与奥运会的激情相遇，共同塑造了一种追求卓越、勇于探索的精神。

学科的奥林匹克竞赛给将会给人机智力巅峰对决提供最好的赛场。不管未来AGI能否实现，AI参加奥林匹克竞赛将会成为通向AGI的必经一站，因为这些考察了模型极具重要的认知推理能力，而这些能力逐渐被体现于各种复杂的现实世界场景中，比如用作软件开发的AI代理，合作处理复杂的决策过程，甚至推动科学研究领域（AI4Science）。

從高考到奧林匹克競技場：大模型與人類智慧的終極較量

3. 构建面向 AI 奥林匹克赛场

在此背景下，上海交通大学生成式人工智能实验室 (GAIR Lab) 的研究团队将大模型从高考考场搬到了更加具有挑战性的“奥林匹克竞技场”，推出了全新的大模型（包括多模态大模型）认知推理能力评估基准——OlympicArena。这一基准使用国际学科奥赛的高难度题目，全面测试了人工智能在跨学科领域的认知推理能力。OlympicArena涵盖了数学、物理、化学、生物、地理、天文、计算机七大核心学科，包括62个国际学科奥赛（如IMO, IPhO, IChO, IBO, ICPC等）的11,163道中英双语题目，为研究者们提供了一个全面评估AI模型的理想平台。

同时，更长远来看，OlympicArena为今后AI在科学领域（AI4Science），工程领域（AI4Engineering）发挥自身强大的能力，甚至促进AI激发出超越人类水平达到Superintelligence，起到了不可忽视的奠定作用。

從高考到奧林匹克競技場：大模型與人類智慧的終極較量

研究团队发现，当下所有的大模型在学科奥赛上都不能交出较好的答卷，即使是GPT-4o，仅仅只有39%的正确率，GPT-4V仅有33%，离及格线（60%正确率）还有相当大的距离。而多数开源大模型表现的更加不尽人意，例如，LLaVa-NeXT-34B, InternVL-Chat-V1.5等当下较强的多模态大模型都未达到20%的正确率。

此外，多数多模态大模型都不擅长充分利用视觉信息解决复杂的推理任务，这也是大模型与人类最显著的差异（人类往往会优先关注处理视觉信息）。因此，OlympicArena上的测试结果表明模型在科学问题的求解上与人类依然有所差距，其内在的推理能力仍然需要不断提高才能更好的辅助人类的科学研究。

從高考到奧林匹克競技場：大模型與人類智慧的終極較量

论文地址：https://arxiv.org/pdf/2406.12753
项目地址：https://gair-nlp.github.io/OlympicArena/
代码地址：https://github.com/GAIR-NLP/OlympicArena

OlympicArena特点

從高考到奧林匹克競技場：大模型與人類智慧的終極較量

OlympicArena的特点概述了它对多模态支持、多种认知能力考察以及细粒度评估（既考虑对错的评估，又考虑每个推理步骤评估）的例子。

全面：OlympicArena包括來自62個不同奧林匹克競賽的共11,163道題目，跨越了七大核心學科：數學、物理、化學、生物、地理、天文和計算機，涉及34個專業分支。同時，不同於以往的benchmark大多數聚焦在選擇題等客觀題，OlympicArena支持豐富的題型，包含表達式、方程式、區間、化學方程式的書寫甚至是程式設計題等。此外，OlympicArena支援多模態（將近半數的題目含有圖片），並採用了與現實中最貼合的文本-圖像環繞的輸入格式（interleaved text-image），充分測試了大模型利用視覺信息協助進行推理的能力。
極具挑戰性：與以往的benchmark要么聚焦於高中（高考）題，要么聚焦於大學題不同，OlympicArena更加聚焦於更加純粹的複雜推理能力的考察，而不是考察大模型對海量知識點的記憶、回想能力或是簡單的應用能力。因此，OlympicArena中所有的題目都是奧賽難度。並且，為了細粒度的評估大模型在不同類型的推理能力上的表現，研究團隊也總結歸納了8種邏輯推理能力，5種視覺推理能力，後續特別分析了現有的大模型在不同類型的推理能力上表現的差異。
嚴謹：引導大模型的健康發展是學術界應該扮演的角色，目前在公開的benchmark中，許多流行大模型多多少少會存在資料外洩問題（即benchmark的測試資料外洩在大模型的訓練資料中）。因此研究團隊特別測試了OlympicArena在當下一些流行大模型上的資料外洩情況，以更嚴謹的驗證該benchmark的有效性。
細粒度的評估：以往的benchmark往往僅評估大模型給出的最終答案是否與正確答案一致，這在非常複雜的推理問題的評估中是片面的，不能很好的反映出當下模型更加真實的推理能力。因此，研究團隊除了有答案的評估，也加入了題目過程（步驟）正確性的評估。同時，研究團隊也從多個不同的向度進行了不同結果的分析，例如，分析模型在不同學科、不同模態、不同推理能力上的表現差異。

與相關benchmark的比較

從高考到奧林匹克競技場：大模型與人類智慧的終極較量

從上表可以看出：OlympicArena無論是在學科、語言

從上表可以看出：OlympicArena無論是在學科、語言、模態的覆蓋範圍的考察深度，以及評估方式的全面性上，都與現存的其他一些聚焦於評測科學問題的benchmark有顯著的差異。

實驗分析

實驗設定

紙模型中了大模態。對於多模態大模型，使用了文字-影像環繞（interleaved text-image）的輸入形式；而對於純文字大模型，在兩種設定下進行了測試，分別是不含任何圖片資訊的純文字輸入（text-only LLMs）和包含圖片描述資訊的純文字輸入（image caption + LLMs）。加入純文字大模型測試的目的不僅是為了擴大此benchmark的適用範圍（使所有的LLM都能參與排行榜），更是為了更好地了解和分析現有的多模態大模型在與其對應的純文字大模型相比時，是否能夠充分利用圖片資訊提升其解決問題的能力。所有實驗均使用zero-shot CoT prompts，研究團隊針對每種答案類型進行了定制，並指定了輸出格式以便於答案提取和基於規則的匹配。

不同模型在OlympicArena不同學科上的準確率，其中CS程式設計題用無偏pass@k指標，其餘均用準確率。從表格的實驗結果可以看出，目前市面上所有的主流大模型都沒能展現出很高的水準，即使是最先進的大模型GPT-4o，整體準確率也僅為39.97%，而其他開源模型的整體準確率則難以達到20%。這種明顯的差異突顯了此benchmark的挑戰性，證明其在推動當前AI推理能力上限的提升上發揮了很大的促進作用。

此外，研究團隊觀察到數學和物理依然是最難的兩個學科，因為它們更加依賴複雜靈活的推理能力，推理的步驟也更多，所需綜合應用的思維能力也更加多樣化。而像生物、地理學科，準確率相對高一些，因為這類學科更注重考察利用豐富的科學知識解決、分析實際問題的能力，側重於對溯因、因果推理能力的考察，相比複雜的歸納、演繹推理，大模型更善於藉助自己訓練階段所獲得的豐富知識進行此類學科的分析。

電腦程式設計競賽也被證明是非常困難的，一些開源模型甚至無法解決其中的任何問題（準確率為0），這表明當前模型在設計有效演算法以用程式解決複雜問題方面的能力依然有很大的提升空間。

值得一提的是，OlympicArena被提出的初衷不是一味追求題目難度，而是充分挖掘大模型跨學科、運用多種推理能力解決實際科學問題的能力。上述提到的運用複雜推理的思考能力，運用豐富的科學知識解決、分析實際問題的能力，以及編寫高效、準確的程序求解問題的能力，都是在科研領域不可或缺的，也是該benchmark始終側重的。

細粒度的實驗分析

為了實現更細粒度的實驗結果分析，研究團隊基於不同的模態和推理能力進行了進一步評估。此外，研究團隊也進行了模型在題目推理過程上的評估分析。主要發現如下：

模型在不同的邏輯推理和視覺推理能力上表現各異

各模型在邏輯推理和視覺推理能力上的表現。邏輯推理能力包括：演繹推理（DED）、歸納推理（IND）、溯因推理（ABD）、類比推理（ANA）、因果推理（CAE）、批判性思考（CT）、分解推理（DEC）和定量推理（QUA）。視覺推理能力包括：模式辨識（PR）、空間推理（SPA）、圖表推理（DIA）、符號解釋（SYB）和視覺比較（COM）。

幾乎所有模型在不同邏輯推理能力上的表現趨勢都相似。它們在溯因推理和因果推理方面表現突出，能夠很好地從提供的資訊中識別因果關係。相反，模型在歸納推理和分解推理方面表現較差。這是由於奧林匹克級別問題的多樣性和非常規性，這些問題需要將複雜問題分解為較小的子問題的能力，這依賴於模型成功求解每個子問題，並將子問題組合起來解決更大的問題。在視覺推理能力方面，模型在模式辨識和視覺比較方面表現較好。

然而，它們在涉及空間和幾何推理的任務以及需要理解抽象符號的任務中表現較為困難。從不同推理能力的細粒度分析來看，大模型所缺乏的能力（如對複雜問題的分解，對幾何圖形的視覺推理等）正是科學研究中不可或缺、至關重要的能力，表明了AI離真正可以全方位輔助人類進行科學研究還有一段距離。

不同多模態模型（LMMs）及其對應的純文字模型（LLMs）在三種不同實驗設定中的比較。

大多數多模態模型（LMMs）仍然不擅長利用視覺訊息協助進行推理

如上圖(a)所示，只有少數多模態大模型（如GPT-4o和Qwen-VL -Chat）在有影像輸入時相對於其對應的純文字模型表現出顯著的效能提升。許多多模態大模型在影像輸入時沒有表現出效能提升，甚至在處理影像時表現出效果下降。可能的原因包括：

當文本和圖像一起輸入時，LMMs可能更專注於文本，忽略圖像中的信息。

一些LMMs在基於其文字模型訓練視覺能力時，可能會喪失其固有的一些語言能力（例如，推理能力），這在本項目的複雜場景中尤為明顯。

該benchmark的題目使用了複雜的文本-圖像環繞的輸入格式，一些模型無法很好地支持這一格式，導致其不能很好的處理和理解嵌入文本中的圖像位置信息。

而在科學研究中，往往伴隨著非常海量的圖表、幾何圖形、可視化數據等視覺信息，只有當AI可以嫻熟的使用其視覺能力協助推理時，才可以有助於推動科學研究的效率與創新，成為解決複雜科學問題的強大工具。

左圖：所有模型在所有進行推理過程評估的問題中的，答案的正確率和過程的正確率的相關性。右圖：錯誤過程步驟位置的分佈。

推理步驟的評估結果分析

透過對模型推理步驟進行正確性的細粒度評估，研究團隊發現：

的結果和僅依靠答案的評估之間通常具有高度一致性。當模型產生正確答案時，其推理過程的品質大多較高。

推理過程的準確率通常高於只看答案的準確率。這顯示即使是非常複雜的問題，模型也能正確執行一些中間步驟。因此，模型在認知推理方面可能具有顯著的潛力，這為研究人員開闢了新的研究方向。研究團隊也發現，在某些學科中，一些在只參照答案評估時表現良好的模型在推理過程上表現不佳。研究團隊推測這是因為模型在產生答案時有時會忽略中間步驟的合理性，儘管這些步驟對最終結果可能並不關鍵。

此外，研究團隊對錯誤步驟的位置分佈進行了統計分析（見圖c），發現較高比例的錯誤發生在一個問題中較後的推理步驟。這表明隨著推理過程的累積，模型更容易出錯，並產生錯誤的累積，這表明模型在處理長鏈邏輯推理時仍然有很大的提升空間。

團隊也呼籲所有研究者在AI推理任務中更多地關注模型推理過程的監督和評估。這不僅可以提高AI系統的可信度和透明度，幫助更好地理解模型的推理路徑，還能辨識出模型在複雜推理中的薄弱環節，進而引導改進模型結構和訓練方法。透過細緻的過程監督，可以進一步挖掘AI的潛力，推動其在科學研究和實際應用中的廣泛應用。

模型錯誤類型的分析
🎜
研究團隊採樣了 GPT-4V 回答錯誤的112題（每個學科 16 題目，其中 8 道為純文本題目，8 道為多模態題目），並人工標註這些錯誤的原因。如上圖，推理錯誤（包括邏輯推理錯誤和視覺推理錯誤）構成了最大的錯誤原因，這表明我們的基準有效地突顯了當前模型在認知推理能力方面的不足，這與研究團隊的初衷是吻合的。

此外，相當一部分錯誤也來自知識的缺乏（雖然奧賽的題目僅以高中知識為基礎範圍），這表明當前模型在缺乏領域知識之外，更多的無法利用這些知識來輔助推理。另一個比較多的錯誤原因是理解偏差，這可以歸因於模型對上下文的誤解以及整合複雜語言結構和多模態資訊的困難。

一個GPT-4V在數學奧賽題上犯錯的例子

資料外洩偵測

資料外洩檢測

做對的數量。
隨著預訓練語料規模不斷擴大，檢測benchmark上潛在的資料外洩至關重要。而預訓練過程的不透明通常使這項任務具有挑戰性。為此，研究團隊採用了一種新提出的實例級洩漏檢測指標，稱為「N-gram預測準確性」。這項指標均勻地從每個實例中抽取幾個起始點，預測每個起始點的下一個N-gram，並檢查所有預測的N-gram是否正確，以判斷模型是否可能在訓練階段遇到過該實例。研究團隊將此指標應用於所有可用的基礎模型。

如上圖所示，主流模型在OlympicArena上並沒有顯著的資料外洩問題，即使有洩露，數量相對於完整的benchmark資料集來說微不足道。例如，洩漏最多的Qwen1.5-32B模型也僅被偵測出43個疑似洩漏的實例。這也自然而然引發了一個問題：模型能正確回答洩漏的這些實例問題嗎？

在這個問題上，研究團隊很驚訝的發現，即使是洩漏的問題，相應的模型能回答正確的也非常少。這些結果都表明，該benchmark幾乎沒有遭受資料外洩的影響，並且保持著相當大的挑戰性，可以在接下來很長的時間內保持其有效性。

結語

儘管OlympicArena具有非常高的價值，但研究團隊表示未來仍有不少工作要做。首先，OlympicArena benchmark不可避免地會引入了一些噪音數據，作者將積極利用社群回饋來不斷改進改進。此外，研究團隊還計劃每年發布基準測試的新版本，以進一步減輕與資料外洩相關的問題。此外，從更長遠來講，目前的基準測試僅限於評估模型解決複雜問題的能力。

在未來，所有人更希望人工智慧能夠協助完成複雜的綜合任務，並在實際應用中展示價值，例如AI4Science和AI4Engineering，這將是未來基準設計的目標和宗旨。儘管如此，目前OlympicArena仍作為促進AI走向Superintelligence的催化劑，發揮重要的作用。

願景：人類與AI共同進步的輝煌時刻
在未來，我們有理由相信，隨著AI技術的不斷成熟和應用場景的不斷拓展，OlympicArena將不僅僅是一個評估AI能力的賽場，更將成為一個展示AI在各領域應用潛力的舞台。無論是在科學研究、工程設計，或是在運動競技等更廣泛的領域，AI都將以其獨特的方式，為人類社會的發展貢獻力量。

最後，研究團隊也表示學科奧林匹克賽場也將只是OlympicArena的一個開始，AI更多的能力值得不斷的探索，例如奧林匹克運動賽場將在未來成為具身智能的競技場。
參考連結：
🎜🎜[1] reStructured Pre-training, arXiv 2022, Weiz Yuhehey Yuhey h

以上是從高考到奧林匹克競技場：大模型與人類智慧的終極較量的詳細內容。更多資訊請關注PHP中文網其他相關文章！