奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonnet vs. GPT-4o？-人工智能-PHP中文网

首页

科技周边

人工智能

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonnet vs. GPT-4o？

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 24, 2024 pm 05:01 PM

工程 GAIR Lab

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonnet vs. GPT-4o？

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

上海交通大学生成式人工智能实验室 (GAIR Lab) 的研究团队，主要研究方向是：大模型训练、对齐与评估。

团队主页：https://plms.ai/

AI技术日新月异，近来Anthropic公司最新发布的Claude-3.5-Sonnet因在知识型推理、数学推理、编程任务及视觉推理等任务上设立新行业基准而引发广泛讨论：Claude-3.5-Sonnet 已经取代OpenAI的GPT4o成为世界上”最聪明的AI“（Most Intelligent AI）了吗？回答这个问题的挑战在于我们首先需要一个足够挑战的智力测试基准，使得我们可以区分目前最高水平的AI。

上海交通大学生成式人工智能实验室（GAIR Lab）推出的OlympicArena[1] （奥林匹克竞技场）满足了这个需求。

奥林匹克学科竞赛不仅是对人类（碳基智能）思维敏捷性、知识掌握和逻辑推理的极限挑战，更是AI（“硅基智能”）锻炼的绝佳练兵场，是衡量AI与“超级智能”距离的重要标尺。OlympicArena——一个真正意义上的AI奥运竞技场。在这里，AI不仅要展示其在传统学科知识上的深度（数学、物理、生物、化学、地理等顶级竞赛），还要在模型间的认知推理能力上展开较量。

近日，同样是研究团队，首次提出使用"奥林匹克竞赛奖牌榜"的方法，根据各AI模型在奥林匹克竞技场（各学科）的综合表现进行排名，选出迄今为止智力最高的AI。在此次竞技场中，研究团队重点分析并比较了最近发布的两个先进模型——Claude-3.5-Sonnet和Gemini-1.5-Pro，以及OpenAI的GPT-4系列（e.g., GPT4o)。通过这种方式，研究团队希望能够更有效地评估和推动AI技术的发展。

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonnet vs. GPT-4o？

^{图: 奥林匹克学科竞赛奖牌榜}

^{注：研究团队首先依据金牌数量对模型进行排序，如果金牌数量相同，则按照整体性能分数来排序。}

实验结果表明：

Claude-3.5-Sonnet在整体表现上与GPT-4o相比极具竞争力，甚至在一些科目上超过了GPT-4o（比如在物理、化学和生物学上）。
Gemini-1.5-Pro和GPT-4V排名紧随GPT-4o和Claude-3.5-Sonnet之后，但它们之间存在明显的表现差距。
来自开源社区的AI模型性能明显落后于这些专有模型。
这些模型在此基准测试上的表现不尽人意，表明我们在实现超级智能之路上还有很长的路要走。

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonnet vs. GPT-4o？

项目主页：https://gair-nlp.github.io/OlympicArena/

实验设置

研究团队采取OlympicArena的测试集进行评估。该测试集的答案并未公开，有助于防止数据泄露，从而反映模型的真实性能。研究团队测试了多模态大模型（LMMs）和纯文本大模型（LLMs）。对于LLMs的测试，输入时不提供任何与图像相关的信息给模型，仅提供文本。所有评估均采用零样本（zero-shot）思维链（Chain of Thought）提示词。

评估对象

研究团队评估了一系列开源和闭源的多模态大模型（LMMs）和纯文本大模型（LLMs）。对于LMMs，选择了GPT-4o、GPT-4V、Claude-3-Sonnet、Gemini Pro Vision、Qwen-VL-Max等闭源模型，此外还评估了LLaVA-NeXT-34B、InternVL-Chat-V1.5、Yi-VL-34B和Qwen-VL-Chat等开源模型。对于LLMs，主要评估了Qwen-7B-Chat、Qwen1.5-32B-Chat、Yi-34B-Chat和InternLM2-Chat-20B等开源模型。

此外，研究团队特别包括了新发布的Claude-3.5-Sonnet以及Gemini-1.5-Pro，并将它们与强大的GPT-4o和GPT-4V进行比较。以反映最新的模型性能表现。

评估方法

衡量标准鉴于所有问题都可以通过基于规则的匹配进行评估，研究团队对非编程任务使用准确率，并对编程任务使用公正的pass@k指标，定义如下：

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonnet vs. GPT-4o？

本次评估中设定k = 1且n = 5，c表示通过所有测试用例的正确样本数量。

奥林匹克竞技场奖牌榜：

与奥运会使用的奖牌系统类似，是一个专门设计用来评估AI模型在各个学术领域性能的先驱性排名机制。该表为在任一给定学科中取得前三名成绩的模型颁发奖牌，从而为比较不同模型提供了一个明确且具有竞争性的框架。研究团队首先依据金牌数量对模型进行排序，如果金牌数量相同，则按照整体性能分数来排序。它提供了一种直观简洁的方式来识别不同学术领域中的领先模型，使研究人员和开发者更容易理解不同模型的优势和劣势。

细粒度评估：

研究团队还基于不同学科、不同模态、不同语言以及不同类型的逻辑和视觉推理能力进行基于准确性的细粒度评估。

结果与分析

分析内容主要关注Claude-3.5-Sonnet和GPT-4o，同时也对Gemini-1.5-Pro的性能表现进行了部分讨论。

总体情况

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonnet vs. GPT-4o？

^{表:模型在不同学科上的表现}

根据表格的总体结果，可以观察到：

新发布的Claude-3.5-Sonnet性能强大，达到了几乎与GPT-4o相当的水平。两者的整体准确率差异仅约1%。
新发布的Gemini-1.5-Pro也展现出了相当的实力，在大多数学科中的表现超过了GPT-4V（OpenAI当前第二强大的模型）。
值得注意的是，在撰写本报告时，这三个模型中最早的发布时间仅为一个月前，反映了这一领域的快速发展。

针对学科的细粒度分析

GPT-4o vs. Claude-3.5-Sonnet：

尽管GPT-4o和Claude-3.5-Sonnet在整体上表现相似，但两个模型都展现了不同的学科优势。GPT-4o在传统的演绎和归纳推理任务上展现出更优秀的能力，特别是在数学和计算机科学方面。Claude-3.5-Sonnet在物理、化学和生物等学科表现出色，特别是在生物学上，它超过GPT-4o 3%。

GPT-4V vs. Gemini-1.5-Pro：

在Gemini-1.5-Pro与GPT-4V的比较中，可以观察到类似的现象。Gemini-1.5-Pro在物理、化学和生物学方面的表现显著优于GPT-4V。然而，在数学和计算机科学方面，Gemini-1.5-Pro优势不明显甚至不如GPT-4V。

从这两组比较中，可以看出：

OpenAI的GPT系列在传统的数学推理和编程能力上表现突出。这表明GPT系列模型已经经过了严格训练以处理需要大量演绎推理和算法思维的任务。
相反，当涉及到需要将知识与推理结合的学科，如物理、化学和生物学时，其他模型如Claude-3.5-Sonnet和Gemini-1.5-Pro展现出了具有竞争性的表现。这体现了不同模型的专业领域以及潜在的训练重点，表明在推理密集型任务以及知识整合型任务可能存在的权衡。

针对推理类型的细粒度分析

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonnet vs. GPT-4o？

^{Caption: 各模型在逻辑推理能力上的表现。逻辑推理能力包括：演绎推理（DED）、归纳推理（IND）、溯因推理（ABD）、类比推理（ANA）、因果推理（CAE）、批判性思维（CT）、分解推理（DEC）和定量推理（QUA）。}

GPT-4o 与 Claude-3.5-Sonnet 在逻辑推理能力上的比较：

从表格的实验结果可以看出，GPT-4o在大多数的逻辑推理能力上优于Claude-3.5-Sonnet，例如演绎推理、归纳推理、溯因推理、类比推理和批判性思维方面。然而，Claude-3.5-Sonnet在因果推理、分解推理和定量推理上的表现超过了GPT-4o。整体而言，两个模型的表现相当，虽然GPT-4o在大多数类别上略有优势。

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonnet vs. GPT-4o？

^{表: 各模型在视觉推理能力上的表现。视觉推理能力包括：模式识别（PR）、空间推理（SPA）、图表推理（DIA）、符号解释（SYB）和视觉比较（COM）。}

GPT-4o vs. Claude-3.5-Sonnet 在视觉推理能力上的表现：

从表格的实验结果可以看出，Claude-3.5-Sonnet在模式识别和图表推理方面能力领先，展现了其在模式识别和解读图表方面的竞争力。两个模型在符号解释方面表现相当，表明它们在理解和处理符号信息方面具有相当的能力。然而，GPT-4o在空间推理和视觉比较方面优于Claude-3.5-Sonnet，展示了其在需要理解空间关系和比较视觉数据的任务上的优越性。

综合学科与推理类型的分析，研究团队发现：

数学和计算机编程强调复杂演绎推理技巧和基于规则导出普适性结论，倾向于较少依赖预先存在的知识。相比之下，像化学和生物学这样的学科往往需要大量的知识库来基于已知的因果关系和现象信息进行推理。这表明，尽管数学和编程能力仍然是衡量模型推理能力的有效指标，其他学科更好地测试了模型在基于其内部知识进行推理和问题分析方面的能力。
不同学科的特点表明了定制化训练数据集的重要性。例如，要提高模型在知识密集型学科（如化学和生物学）中的表现，训练期间模型需要广泛接触特定领域的数据。相反，对于需要强大逻辑和演绎推理的学科，如数学和计算机科学，模型则能从专注于纯逻辑推理的训练中受益。
此外，推理能力和知识应用之间的区别表明了模型跨学科应用的潜力。例如，具有强大演绎推理能力的模型可以协助需要系统化思维解决问题的领域，如科学研究。而拥有丰富知识的模型在重度依赖现有信息的学科中非常宝贵，如医学和环境科学。理解这些细微差别有助于开发更专业和多功能的模型。

针对语言类型的细粒度分析

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonnet vs. GPT-4o？ ^{Caption: 各模型在不同语言问题的能力表现。}

以上表格展示了模型在不同语言上的性能表现。研究团队发现大多数模型在英语上的准确度比中文要高，这种差距在排名靠前的模型中尤为显著。推测可能有以下几个原因：

尽管这些模型包含了大量中文训练数据并且具有跨语言泛化能力，但它们的训练数据主要以英语为主。
中文问题的难度比英文问题更具挑战性，尤其是在物理和化学等科目中，中国奥林匹克竞赛的问题更难。
这些模型在识别多模态图像中的字符方面能力不足，中文环境下这一问题更为严重。

然而，研究团队也发现一些中国厂商开发或基于支持中文的基模型进行微调的模型，在中文场景下的表现优于英文场景，例如Qwen1.5-32B-Chat、Qwen-VL-Max、Yi-34B-Chat和Qwen-7B-Chat等。其他模型如InternLM2-Chat-20B和Yi-VL-34B，虽然仍然在英语上表现更好，但与排名靠前的闭源模型相比，它们在英语和中文场景间的准确度差异要小得多。这表明，为中文数据乃至全球更多语言优化模型，仍然需要显著的关注。

针对模态的细粒度分析

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonnet vs. GPT-4o？

^{Caption: 各模式在不同模態上使用中的能力表現。}

以上表格展示了模型在不同模態上的表現表現。 GPT-4o在純文字和多模態任務中均優於Claude-3.5-Sonnet，並在純文字上表現更突出。另一方面，Gemini-1.5-Pro在純文字和多模態任務上表現均優於GPT-4V。這些觀察結果表明，即使是目前可用的最強模型，在純文字任務上也比多模態任務有更高的準確率。這說明模型在利用多模態資訊解決複雜推理問題方面仍有相當大的改進空間。

結語

研究團隊在本次評測中主要關注最新的模型：Claude-3.5-Sonnet 和Gemini-1.5-ProAIo 4V 進行比較。此外，研究團隊還設計了一個用於大模型的新穎排名系統——OlympicArena Medal Table，用來清晰的比較不同的模型的能力。研究團隊發現，GPT-4o 在數學和電腦科學等科目上表現突出，具有較強的複雜演繹推理能力和基於規則得出普遍結論的能力。另一方面，Claude-3.5-Sonnet 更擅長根據現有的因果關係和現象進行推理。另外，研究團隊也觀察到這些模型在英語語言問題上表現較好，並且在多模態能力方面有顯著的改進空間。理解模型這些細微差別有助於開發更專業化的模型，以更好地滿足不同學術和專業領域的多樣化需求。

隨著四年一度的奧運盛事日益臨近，我們不禁想像，如果人工智慧也能參與其中，那將是一場怎樣的智慧與科技的巔峰對決？不再僅僅是肢體的較量，AI的加入無疑將開啟對智力極限的新探索, 也期待更多AI選手加入這場智力的奧運會。

^{參考連結：}

^{[1] Huang et al., OlympicArena: Benchmarking Multi-discipline Cognitive Re而且]}

以上是奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonnet vs. GPT-4o？的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸！

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

Java教程

1668

CakePHP 教程

1428

Laravel 教程

1329

PHP教程

1273

C# 教程

1256

显示更多

Related knowledge

ControlNet作者又出爆款！一张图生成绘画全过程，两天狂揽1.4k Star Jul 17, 2024 am 01:56 AM

同样是图生视频，PaintsUndo走出了不一样的路线。ControlNet作者LvminZhang又开始整活了！这次瞄准绘画领域。新项目PaintsUndo刚上线不久，就收获1.4kstar（还在疯狂涨）。项目地址：https://github.com/lllyasviel/Paints-UNDO通过该项目，用户输入一张静态图像，PaintsUndo就能自动帮你生成整个绘画的全过程视频，从线稿到成品都有迹可循。绘制过程，线条变化多端甚是神奇，最终视频结果和原图像非常相似：我们再来看一个完整的绘

登顶开源AI软件工程师榜首，UIUC无Agent方案轻松解决SWE-bench真实编程问题 Jul 17, 2024 pm 10:02 PM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com这篇论文的作者均来自伊利诺伊大学香槟分校（UIUC）张令明老师团队，包括：StevenXia，四年级博士生，研究方向是基于AI大模型的自动代码修复；邓茵琳，四年级博士生，研究方

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com在人工智能领域的发展过程中，对大语言模型（LLM）的控制与指导始终是核心挑战之一，旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法（RL

arXiv论文可以发「弹幕」了，斯坦福alphaXiv讨论平台上线，LeCun点赞 Aug 01, 2024 pm 05:18 PM

干杯！当论文讨论细致到词句，是什么体验？最近，斯坦福大学的学生针对arXiv论文创建了一个开放讨论论坛——alphaXiv，可以直接在任何arXiv论文之上发布问题和评论。网站链接：https://alphaxiv.org/其实不需要专门访问这个网站，只需将任何URL中的arXiv更改为alphaXiv就可以直接在alphaXiv论坛上打开相应论文：可以精准定位到论文中的段落、句子：右侧讨论区，用户可以发表问题询问作者论文思路、细节，例如：也可以针对论文内容发表评论，例如：「给出至

OpenAI超级对齐团队遗作：两个大模型博弈一番，输出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型给的答案一点也看不懂，你敢用吗？随着机器学习系统在更重要的领域得到应用，证明为什么我们可以信任它们的输出，并明确何时不应信任它们，变得越来越重要。获得对复杂系统输出结果信任的一个可行方法是，要求系统对其输出产生一种解释，这种解释对人类或另一个受信任的系统来说是可读的，即可以完全理解以至于任何可能的错误都可以被发现。例如，为了建立对司法系统的信任，我们要求法院提供清晰易读的书面意见，解释并支持其决策。对于大型语言模型来说，我们也可以采用类似的方法。不过，在采用这种方法时，确保语言模型生

黎曼猜想显着突破！陶哲轩强推MIT、牛津新论文，37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近，被称为千禧年七大难题之一的黎曼猜想迎来了新突破。黎曼猜想是数学中一个非常重要的未解决问题，与素数分布的精确性质有关（素数是那些只能被1和自身整除的数字，它们在数论中扮演着基础性的角色）。在当今的数学文献中，已有超过一千条数学命题以黎曼猜想（或其推广形式）的成立为前提。也就是说，黎曼猜想及其推广形式一旦被证明，这一千多个命题将被确立为定理，对数学领域产生深远的影响；而如果黎曼猜想被证明是错误的，那么这些命题中的一部分也将随之失去其有效性。新的突破来自MIT数学教授LarryGuth和牛津大学

LLM用于时序预测真的不行，连推理能力都没用到 Jul 15, 2024 pm 03:59 PM

语言模型真的能用于时序预测吗？根据贝特里奇头条定律（任何以问号结尾的新闻标题，都能够用「不」来回答），答案应该是否定的。事实似乎也果然如此：强大如斯的LLM并不能很好地处理时序数据。时序，即时间序列，顾名思义，是指一组按照时间发生先后顺序进行排列的数据点序列。在很多领域，时序分析都很关键，包括疾病传播预测、零售分析、医疗和金融。在时序分析领域，近期不少研究者都在研究如何使用大型语言模型（LLM）来分类、预测和检测时间序列中的异常。这些论文假设擅长处理文本中顺序依赖关系的语言模型也能泛化用于时间序

首个基于Mamba的MLLM来了！模型权重、训练代码等已全部开源 Jul 17, 2024 am 02:46 AM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com。引言近年来，多模态大型语言模型（MLLM）在各个领域的应用取得了显着的成功。然而，作为许多下游任务的基础模型，当前的MLLM由众所周知的Transformer网络构成，这种网

See all articles

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonnet vs. GPT-4o？

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题