ICLR 2024 Spotlight | 无惧中间步骤，MUSTARD可生成高质量数学推理数据-人工智能-PHP中文网

首页

科技周边

人工智能

ICLR 2024 Spotlight | 无惧中间步骤，MUSTARD可生成高质量数学推理数据

王林

Jul 12, 2024 pm 04:07 PM

产业 MUSTARD

ICLR 2024 Spotlight | 无惧中间步骤，MUSTARD可生成高质量数学推理数据

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com。

近年来，大型语言模型（LLM）在数学应用题和数学定理证明等任务中取得了长足的进步。数学推理需要严格的、形式化的多步推理过程，因此是 LLMs 推理能力进步的关键里程碑，但仍然面临着重要的挑战。

以往的研究工作，如思维链（CoT），揭示了中间步骤引导的有效性。然而，人工地去标注这样的中间步骤需要花费大量人力和时间成本，而自动合成的数据也容易在正确性和人类易读性上面出现问题。

本文中，来自香港城市大学、中山大学、华为诺亚方舟实验室等机构的研究人员提出了一个统一的数学推理数据合成框架 MUSTARD，能够生成大量的、正确的且人类可读可理解的高质量数学推理数据。

论文题目：MUSTARD: Mastering Uniform Synthesis of Theorem and Proof Data
论文链接：https://openreview.net/forum?id=8xliOUg9EW
代码链接：https://github.com/Eleanor-H/MUSTARD
数据集链接：https://drive.google.com/file/d/1yIVAVqpkC2Op7LhisG6BJJ_-MavAMr1B/view
作者主页：https://eleanor-h.github.io/

利用形式化证明器的高质量数据合成框架

MUSTARD 框架由三阶段组成：

第一阶段，概念采集：首先定义并建立了一个数学概念库，涵盖小学、初中、高中和高等教育四个教育阶段的概念，每个教育阶段有 5 至 9 个数学领域，涵盖代数和几何等不同类型的数学问题。每个领域都包含细分的数学概念，如多项式运算或因式分解。随后从数学概念库当中抽取一个或多个数学概念作为种子，规定所生成的问题类别。

第二阶段，数据生成：根据数学概念提示大型语言模型生成数学问题和多步的求解过程。具体来说，MUSTARD 利用大型语言模型生成自然语言和代码的能力，提示大型语言模型完成三项任务：（T1）生成与给定概念相关的数学问题；（T2）用自然语言给出问题的求解；（T3）自动形式化，将自然语言求解转化为 Lean 3 的形式化求解。

第三阶段，形式化验证：使用交互式的形式化定理证明器的验证筛选出准确的求解过程。MUSTARD 将 Lean 3 的形式化求解输送给 Lean 形式化验证器后，如果定理证明器没有返回错误信息，则相应的数据会被收集到有效集合中。否则，MUSTARD 会从定理证明器那里收集错误信息，并提示语言模型修改形式化求解。MUSTARD 会进行多轮验证和自我纠正，直到获得有效的形式化求解。

^{MUSTARD 框架由概念采集、数据生成、形式化验证三阶段组成。}

数据质量的人工评价

为了探究 MUSTARD 生成数据的质量，研究团队请掌握数学和 Lean 3 语言专业人士对数据进行了质量检查。他们从生成的数据中随机抽取 200 条，其中 100 条通过 Lean 定理证明器的验证（有效组），100 条没有通过验证（无效组）。质量检查涵盖每条数据的四个部分（即自然语言问题描述、自然语言求解、形式化问题描述和形式化求解），包括了正确性和一致性的检查。具体来说，高质量的数据应该有正确的自然语言问题描述 (D1) 和正确的问题求解 (D4)。形式化问题描述和求解应该与自然语言的问题描述和求解保持一致（D5、D6）。此外，数据应该符合指定的数学概念 (D2) 和问题类型 (D3)。表 3 展示了这六个检查维度及要求。如果数据符合要求，则在维度中得 1 分，否则得 0 分。

表 3 显示了有效组和无效组在每个维度上的准确率和相应的 p 值。(D1）和（D4）的显著差异性说明了 MUSTARD 生成的问题和答案的正确性。（D6）的显著差异性表明了所生成的数据的自然语言描述和形式化描述的高度一致性。

数据对模型数学推理能力的有效性

为了评估 MUSTARDSAUCE 对提高数学推理能力的影响，研究团队利用这些数据对较小规模的语言模型进行了微调，并在数学应用题（MWP）和自动定理证明（ATP）上对其进行了评估。本文对比了 MUSTARDSAUCE 数据集的以下组合数据的有效性：

MUSTARDSAUCE-valid：经过了 Lean 形式化证明器验证的 5866 条数据；
MUSTARDSAUCE-invalid：未能通过 Lean 形式化证明器验证的 5866 条数据；
MUSTARDSAUCE-random：随机的 5866 条数据；
MUSTARDSAUCE-tt：MUSTARD 生成的所有 28316 条数据。

研究团队采用 LoRA [1] 在每个组合数据上微调开源 GPT2-large [2]、Llama 2-7B 和 Llama 2-70B [3]。对于数学应用题任务，他们使用 GSM8K [4] 和 MATH [5][6] 数据集进行评估。在评估自动定理证明时，研究团队使用了 Mathlib [8]和 miniF2F [7] 基准。此外，他们也在 MUSTARDSAUCE-test 上进行了评估。

总的来说，在 MUSTARDSAUCE 上对模型进行微调提高了模型的数学推理能力。在自动定理证明（下表 5）和数学应用题求解（下表 4），使用 MUSTARDSAUCE-valid 进行微调与使用 MUSTARDSAUCE-random 进行微调相比，平均相对性能提高了 18.15%（下表 5）和 11.01%（下表 4）。

对于自动定理证明，经过微调的 Llama 2-7B 平均性能提升 15.41%，经过微调的 GPT 2-large 平均性能提升 20.89%。

对于数学应用题求解，经过微调的 Llama 2-7B 平均性能提升 8.18%，经过微调的 GPT 2-large 平均性能提升 15.41%。此外，经过 MUSTARDSAUCE-tt 微调的模型虽在微调数据量上有绝对优势，但其性能不及经过 MUSTARDSAUCE-valid 微调的模型性能。

Llama 2-70B 的更多结果。在微调更大的语言模型时，MUSTARDSAUCE 数据仍然有效。

MUSTARDSAUCE 数据集

本文开源了 MUSTARDSAUCE 数据集。其中每一个数据都包含了自然语言的问题描述和多步求解，以及对偶的形式化语言 Lean 3 的问题描述和多步求解。MUSTARDSAUCE 的数据包括了数学应用题和定理证明题，涵盖了从小学到高等教育阶段的难度分级。题目的推理步数随着题目难度的增长而增长。最难的题目需要 30 步左右的求解步骤，约 20 个 Lean 3 tactics。

数据集下载：https://drive.google.com/file/d/1yIVAVqpkC2Op7LhisG6BJJ_-MavAMr1B/view

自动形式化 / 非形式化挑战赛

研究团队还基于 MUSTARDSAUCE 数据集的自然语言和 Lean 形式语言的对偶数据，开放了一个自动形式化（autoformalization）和一个自动非形式化（auto-informalization）的挑战赛。此外，研究团队还同步开放了自动定理生成和证明（automated theorem generation and proving）和代码辅助的运筹优化问题自动求解（automated optimization problem-solving with code）等两个挑战赛赛道。比赛时间为 2024 年 4 月 3 日 – 5 月 27 日。优胜队伍将有机会参加 7 月 26 日于奥地利维也纳举办的 ICML 2024 AI for Math 研讨会。

赛道 1-1 （自动形式化）：https://www.codabench.org/competitions/2436/
赛道 1-2 （自动非形式化）：https://www.codabench.org/competitions/2484/
赛道 2 （自动定理生成和证明）：https://www.codabench.org/competitions/2437/
赛道 3 （代码辅助的运筹优化问题自动求解）：https://www.codabench.org/competitions/2438/

^{参考文献：}

^{[1] Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685, 2021.}

^{[2] Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever, et al. Language models are unsupervised multitask learners. OpenAI blog, 1 (8):9, 2019.}

^{[3] Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Niko- lay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, Dan Bikel, Lukas Blecher, Cristian Canton-Ferrer, Moya Chen, Guillem Cucurull, David Esiobu, Jude Fernandes, Jeremy Fu, Wenyin Fu, Brian Fuller, Cynthia Gao, Vedanuj Goswami, Naman Goyal, Anthony Hartshorn, Saghar Hosseini, Rui Hou, Hakan Inan, Marcin Kardas, Viktor Kerkez, Madian Khabsa, Isabel Kloumann, Artem Korenev, Punit Singh Koura, Marie-Anne Lachaux, Thibaut Lavril, Jenya Lee, Diana Liskovich, Yinghai Lu, Yuning Mao, Xavier Martinet, Todor Mihaylov, Pushkar Mishra, Igor Molybog, Yixin Nie, Andrew Poulton, Jeremy Reizenstein, Rashi Rungta, Kalyan Saladi, Alan Schelten, Ruan Silva, Eric Michael Smith, Ranjan Subramanian, Xiaoqing Ellen Tan, Binh Tang, Ross Taylor, Adina Williams, Jian Xiang Kuan, Puxin Xu, Zheng Yan, Iliyan Zarov, Yuchen Zhang, Angela Fan, Melanie Kambadur, Sharan Narang, Aure ́lien Rodriguez, Robert Stojnic, Sergey Edunov, and Thomas Scialom. Llama 2: Open foundation and fine- tuned chat models. CoRR, abs/2307.09288, 2023. doi: 10.48550/arXiv.2307.09288. URL https://doi.org/10.48550/arXiv.2307.09288.}

^{[4] Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, Christopher Hesse, and John Schulman. Training verifiers to solve math word problems. CoRR, abs/2110.14168, 2021.}

^{[5] Dan Hendrycks, Collin Burns, Saurav Kadavath, Akul Arora, Steven Basart, Eric Tang, Dawn Song, and Jacob Steinhardt. Measuring mathematical problem solving with the MATH dataset. In Joaquin Vanschoren and Sai-Kit Yeung (eds.), Proceedings of the Neural Information Processing Systems Track on Datasets and Benchmarks 1, NeurIPS Datasets and Benchmarks 2021, Decem- ber 2021, virtual, 2021.}

^{[6] Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, and Karl Cobbe. Let’s verify step by step. arXiv preprint arXiv:2305.20050, 2023.}

^{[7] Kunhao Zheng, Jesse Michael Han, and Stanislas Polu. minif2f: a cross-system benchmark for formal olympiad-level mathematics. In The Tenth International Conference on Learning Repre- sentations, ICLR 2022, Virtual Event, April 25-29, 2022. OpenReview.net, 2022.}

^{[8] https://github.com/leanprover-community/mathlib}

以上是ICLR 2024 Spotlight | 无惧中间步骤，MUSTARD可生成高质量数学推理数据的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸！

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

Java教程

1676

CakePHP 教程

1429

Laravel 教程

1333

PHP教程

1278

C# 教程

1257

显示更多

Related knowledge

DeepMind机器人打乒乓球，正手、反手溜到飞起，全胜人类初学者 Aug 09, 2024 pm 04:01 PM

但可能打不过公园里的老大爷？巴黎奥运会正在如火如荼地进行中，乒乓球项目备受关注。与此同时，机器人打乒乓球也取得了新突破。刚刚，DeepMind提出了第一个在竞技乒乓球比赛中达到人类业余选手水平的学习型机器人智能体。论文地址：https://arxiv.org/pdf/2408.03906DeepMind这个机器人打乒乓球什么水平呢？大概和人类业余选手不相上下：正手反手都会：对手采用多种打法，该机器人也能招架得住：接不同旋转的发球：不过，比赛激烈程度似乎不如公园老大爷对战。对机器人来说，乒乓球运动

首配机械爪！元萝卜亮相2024世界机器人大会，发布首个走进家庭的国际象棋机器人 Aug 21, 2024 pm 07:33 PM

8月21日，2024世界机器人大会在北京隆重召开。商汤科技旗下家用机器人品牌“元萝卜SenseRobot”家族全系产品集体亮相，并最新发布元萝卜AI下棋机器人——国际象棋专业版（以下简称“元萝卜国象机器人”），成为全球首个走进家庭的国际象棋机器人。作为元萝卜的第三款下棋机器人产品，全新的国象机器人在AI和工程机械方面进行了大量专项技术升级和创新，首次在家用机器人上实现了通过机械爪拾取立体棋子，并进行人机对弈、人人对弈、记谱复盘等功能，

Claude也变懒了！网友：学会给自己放假了 Sep 02, 2024 pm 01:56 PM

开学将至，该收心的不止有即将开启新学期的同学，可能还有AI大模型。前段时间，Reddit上挤满了吐槽Claude越来越懒的网友。「它的水平下降了很多，经常停顿，甚至输出也变得很短。在发布的第一周，它可以一次性翻译整整4页文稿，现在连半页都输出不了了！」https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一个名为「对Claude彻底失望了的帖子里」，满满地

世界机器人大会上，这家承载「未来养老希望」的国产机器人被包围了 Aug 22, 2024 pm 10:35 PM

正在北京举行的世界机器人大会上，人形机器人的展示成为了现场绝对的焦点，在星尘智能的展台上，由于AI机器人助理S1在一个展区上演扬琴、武术、书法三台大戏，能文能武，吸引了大量专业观众和媒体的驻足。在带弹性的琴弦上的优雅演奏，让S1展现出速度、力度、精度兼具的精细操作和绝对掌控。央视新闻对「书法」背后的模仿学习和智能控制进行了专题报道，公司创始人来杰解释到，丝滑动作的背后，是硬件侧追求最好力控和最仿人身体指标（速度、负载等），而是在AI侧则采集人的真实动作数据，让机器人遇强则强，快速学习进化。而敏捷

ACL 2024奖项公布：华科大破译甲骨文最佳论文之一、GloVe时间检验奖 Aug 15, 2024 pm 04:37 PM

本届ACL大会，投稿者「收获满满」。为期六天的ACL2024正在泰国曼谷举办。ACL是计算语言学和自然语言处理领域的顶级国际会议，由国际计算语言学协会组织，每年举办一次。一直以来，ACL在NLP领域的学术影响力都位列第一，它也是CCF-A类推荐会议。今年的ACL大会已是第62届，接收了400余篇NLP领域的前沿工作。昨天下午，大会公布了最佳论文等奖项。此次，最佳论文奖7篇（两篇未公开）、最佳主题论文奖1篇、杰出论文奖35篇。大会还评出了资源论文奖（ResourceAward）3篇、社会影响力奖（

李飞飞团队提出ReKep，让机器人具备空间智能，还能整合GPT-4o Sep 03, 2024 pm 05:18 PM

视觉与机器人学习的深度融合。当两只机器手丝滑地互相合作叠衣服、倒茶、将鞋子打包时，加上最近老上头条的1X人形机器人NEO，你可能会产生一种感觉：我们似乎开始进入机器人时代了。事实上，这些丝滑动作正是先进机器人技术+精妙框架设计+多模态大模型的产物。我们知道，有用的机器人往往需要与环境进行复杂精妙的交互，而环境则可被表示成空间域和时间域上的约束。举个例子，如果要让机器人倒茶，那么机器人首先需要抓住茶壶手柄并使之保持直立，不泼洒出茶水，然后平稳移动，一直到让壶口与杯口对齐，之后以一定角度倾斜茶壶。这

分布式人工智能盛会DAI 2024征稿：Agent Day，强化学习之父Richard Sutton将出席！颜水成、Sergey Levine以及DeepMind科学家将做主旨报告 Aug 22, 2024 pm 08:02 PM

会议简介随着科技的飞速发展，人工智能已经成为了推动社会进步的重要力量。在这个时代，我们有幸见证并参与到分布式人工智能（DistributedArtificialIntelligence，DAI）的创新与应用中。分布式人工智能是人工智能领域的重要分支，这几年引起了越来越多的关注。基于大型语言模型（LLM）的智能体（Agent）异军突起，通过结合大模型的强大语言理解和生成能力，展现出了在自然语言交互、知识推理、任务规划等方面的巨大潜力。AIAgent正在接棒大语言模型，成为当前AI圈的热点话题。Au

鸿蒙智行享界S9及全场景新品发布会，多款重磅新品齐发 Aug 08, 2024 am 07:02 AM

今天下午，鸿蒙智行正式迎来了新品牌与新车。 8月6日，华为举行鸿蒙智行享界S9及华为全场景新品发布会，带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕升激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品，从智慧出行、智慧办公到智能穿戴，华为全场景智慧生态持续构建，为消费者带来万物互联的智慧体验。鸿蒙智行：深度赋能，推动智能汽车产业升级华为联合中国汽车产业伙伴，为

See all articles

ICLR 2024 Spotlight | 无惧中间步骤，MUSTARD可生成高质量数学推理数据

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题