DeepSeek-Prover-V1.5 通过结合强化学习和蒙特卡洛树搜索,显着提升了证明生成的效率和准确性。
AI 技术与数学发现的进展,正前所未有地交织在一起。 前段时间,著名数学家陶哲轩在牛津数学公开讲座中做了主题为「AI 在科学和数学中的潜力」的主题分享。他指出,将 AI 整合到数学领域将使形式化证明的编写速度超过人类证明(人类证明容易出错)。这将成为一个关键转折点,意味着形式化证明的使用将不仅限于验证现有的证明,还将用于创造新的数学知识。这将通过广泛的人类数学家与 AI 数学家之间的协作来实现。我们将迎来一个「大数学」时代! 正如陶哲轩所说,将 AI 应用于形式化定理证明已经成为数学家的日常操作。在另一头,AI 科学家们也在努力提高 AI 在形式化定理证明中的性能和效率,比如 DeepSeek 刚刚推出的新模型 ——DeepSeek-Prover-V1.5。 DeepSeek-Prover-V1.5 是一个 70 亿参数的开源模型。它通过结合强化学习(基于证明助手反馈的强化学习,RLPAF)和蒙特卡洛树搜索(特别是提出的 RMaxTS 变体),显着提升了证明生成的效率和准确性。 DeepSeek-Prover-V1.5 在 Lean 4 的形式定理证明方面优于所有开源模型。
- 报告标题:DeepSeek-Prover-V1.5: Harnessing Proof Assistant Feedback for Reinforcement Learning and Monte-Carlo Tree Search
- 报告链接: https://arxiv.org/pdf/2408.08152
- GitHub 链接:https://github.com/deepseek-ai/DeepSeek-Prover-V1.5
近年来,在大型语言模型领域取得的进展极大地推动了人工智能在数学推理和定理证明方面的发展。但语言模型在形式化定理证明方面仍面临重大挑战。例如,使用 Lean 和 Isabelle 这类系统进行证明时,需要进行严格的推导,以满足验证系统的形式规范。即便是像 GPT-4 这样的先进模型,在处理复杂的形式证明时也显得力不从心,这凸显了形式化证明中编码和数学推理的复杂性。一个高效的形式化定理证明模型不仅需要理解 Lean 证明助手等形式化系统的语法和语义,还需要将抽象的数学推理与精确的形式化表达方式相结合。 在形式化定理证明中,语言模型通常采用两种策略:证明步骤生成(proof-step generation)和完整证明生成(whole-proof generation)。 证明步骤生成通过预测并验证每一个策略,利用形式化验证器获取当前策略状态的更新信息,并常结合树搜索技术来构建有效的证明。而完整证明生成则在计算上更为高效,它基于定理陈述一次性生成整个证明代码,减少了证明模型与形式化定理验证器之间协调所需的通信量。 尽管 DeepSeek-Prover-V1 在 Lean 4 中通过完整证明生成取得了 SOTA 成果,但这种方法也有其独特的挑战。它需要在没有中间策略状态信息的情况下进行长期序列预测,而未来的策略依赖于这些隐藏的结果。在 Lean 的策略模式中,证明是通过一系列改变证明状态的策略来构建的。这种顺序性可能导致错误累积,一个小的误差就可能使证明偏离正确的路径。具体来说,自回归模型在生成长证明时可能会对中间策略状态有错误的认识。 为了在不牺牲完整证明生成的简便性和计算效率的同时,无缝地整合中间策略状态,研究者在 DeepSeek-Prover-V1.5 中开发了一种统一方法。这种方法通过截断和重新开始(truncate-and-resume)机制,结合了证明步骤生成和完整证明生成的优势。该过程从标准的完整证明生成开始,语言模型根据定理陈述前缀完成证明代码,然后由 Lean 证明器进行验证。如果证明正确无误,流程就此结束。如果发现错误,就从第一个错误信息处截断代码,并丢弃后续代码。然后,使用成功生成的证明代码作为提示,生成下一个证明段。为了提高模型新完成部分的准确性,研究者在提示的末尾添加了 Lean 4 证明器的最新状态作为注释。值得注意的是,该方法并不局限于从上次成功应用的策略中重新开始。研究者将截断和重新开始机制集成到了蒙特卡洛树搜索(MCTS)中,由树搜索策略来安排截断点。此外,他们提出了一种新的无奖励(reward-free)探索算法,用于解决证明搜索中的奖励稀疏问题。他们赋予树搜索智能体内在的驱动力,也就是好奇心,以广泛探索策略状态空间。这些算法模块扩展了他们的完整证明生成模型,使其成为一个灵活的交互式定理证明工具,能够有效利用证明助手的反馈,生成多样化的解决方案。研究者提出了一个全面的框架,用于开发基于语言模型的形式化数学证明工具,他们整合了几个关键组件:大规模数学预训练、形式化数学语料库的构建和增强、基于证明助手反馈的在线强化学习,以及用于定理证明长期规划的树搜索方法论。预训练模型、监督微调模型、强化学习模型以及蒙特卡洛树搜索算法的代码都公开提供,以供进一步研究和应用。研究者通过进一步在高质量数学和代码数据上预训练,增强了基础模型在形式化定理证明和数学推理方面的能力,重点关注 Lean、Isabelle 和 Metamath 等广泛用于证明助手的形式语言。研究者通过实现两种数据增强技术,改进了 Lean 4 代码补全数据集。首先,他们使用 DeepSeek-Coder V2 236B 在 Lean 4 代码旁注释 CoT(chain-of-thought)评论,将形式化定理证明与自然语言推理对齐。其次,他们在 Lean 4 证明代码中插入中间策略状态信息,使他们的模型能够更有效地利用编译器反馈。然后,他们使用这个数据集对预训练模型进行微调。研究者采用 GRPO 算法对监督微调模型进行 RLPAF(reinforcement learning from proof assistant feedback,基于证明助手反馈的强化学习)。Lean 证明器的验证结果作为奖励监督,增强了模型与验证系统的形式规范的一致性。研究者通过引入一种新的抽象和相应的搜索算法,推进了形式化定理证明中的树搜索方法。他们的截断和重新开始机制作为状态 - 动作抽象,将树搜索过程无缝集成到完整证明生成框架中。他们展示了 RMaxTS,这是一种创新的蒙特卡洛树搜索算法,利用 RMax 策略来解决证明搜索问题中稀疏奖励的探索挑战。通过分配内在奖励,这种算法鼓励证明智能体生成多样化的规划路径,从而促进对证明空间的广泛探索。在单通道法完整证明生成设置中,DeepSeek-Prover-V1.5 在 miniF2F 的测试集上达到了 60.2% 的通过率,比 DeepSeek-Prover-V1 的 50.0% 提高了 10.2 个百分点。结合树搜索技术后,通过率进一步提升,达到了 63.5% 的新 SOTA。DeepSeek-Prover-V1.5 在 ProofNet 的单通道法完整证明生成设置中也展现出强大的性能,在验证集上通过率为 21.6%,在测试集上为 23.7%。结合树搜索技术之后,这些结果被进一步增强,在验证集上达到了 25.4% 的新 SOTA,在测试集上达到了 25.3%。수학적 언어를 통해 형식적 증명과 추론을 생성하는 언어 모델의 능력을 향상시키기 위해 연구진은 기본 모델을 추가로 사전 훈련하고 이 개선된 모델을 DeepSeek -ProverV1로 명명했습니다. 5-베이스. 그런 다음 기사에서는 DeepSeek-Prover-V1.5의 SFT(지도 미세 조정)와 관련된 방법과 프로세스에 대해 설명합니다. 특히 연구원들은 자세한 설명 주석을 추가하여 DeepSeekProver-V1 증명 데이터세트를 강화했습니다. 이 개선 사항은 자연어 설명과 Lean 4 코드 간의 일관성을 향상시켜 더 나은 공식적인 수학적 추론을 촉진하기 위한 것입니다. 또한 연구원들은 몬테카를로 트리 검색 프로세스에 사용되는 잘림 및 다시 시작 메커니즘을 지원하기 위해 중간 정책 상태 정보를 보조 예측 작업으로 통합하고 결과 모델을 DeepSeek-ProverV1.5-SFT라고 불렀습니다. DeepSeek-Prover-V1.5-SFT의 성능을 더욱 향상시키기 위해 연구에서는 강화 학습 단계를 도입하여 DeepSeek-Prover-V1을 구현했습니다. .5-RL 모델. 이 단계에서는 강화 학습(RL)을 활용하여 Lean 4 증명자의 검증 피드백을 기반으로 성능을 향상시킵니다. 다음은 이 RL 프로세스의 구체적인 세부 사항입니다. 교육 팁. 강화 학습 단계에서 연구는 감독된 미세 조정 데이터 세트의 부분 정리 설명을 훈련 단서로 사용합니다. 필터링 후에도 약 4,500개의 고유한 정리 문이 유지되었습니다. 각 정리에는 CoT 및 비CoT 지침 힌트가 함께 제공되어 두 모드 모두에서 모델의 증명 생성 기능을 향상시킵니다. 보상. RL을 통해 LLM을 훈련할 때 훈련된 보상 모델은 피드백 신호를 제공하는 경우가 많습니다. 대조적으로, 형식 정리 증명은 증명 보조자가 생성된 증명을 엄격하게 검증함으로써 이점을 제공하므로 상당한 이점을 제공합니다. 구체적으로, 생성된 각 증명은 올바르게 검증되면 1의 보상을 받고 그렇지 않으면 0의 보상을 받습니다. 이 이진 보상 신호는 정확하지만 특히 감독되는 미세 조정 모델에 어려운 정리의 경우 희박합니다. 이러한 희소성을 완화하기 위해 우리는 위에서 설명한 대로 모델의 감독된 미세 조정을 위해 달성하기 어렵지만 달성 가능한 훈련 단서를 선택했습니다. 강화 학습 알고리즘. 본 연구에서는 본 논문의 RL 알고리즘으로 GRPO(Group Relative Policy Optimization)를 채택했는데, 이는 PPO에 비해 더 높은 효과성과 효율성을 보인다. 구체적으로 GRPO는 각 정리 힌트에 대한 후보 증명 세트를 추출하고 세트 내 출력의 상대적 보상을 기반으로 모델을 최적화합니다. 평가. 그림 3은 miniF2F와 ProofNet 데이터세트의 각 훈련 단계에 대한 비교 분석을 보여줍니다. CoT 모드는 대부분의 설정에서 지속적으로 비CoT 모드보다 성능이 뛰어납니다. 전체적인 증명 생성 환경에서 트리 검색 접근 방식을 구현하기 위해 본 연구에서는 사용자 정의 상태 및 동작 공간을 정의하기 위한 증명 트리 추상화를 도입하고 절단을 활용합니다. 메커니즘을 다시 시작합니다. 연구자들은 먼저 불완전한 증명을 각 증명 단계에 해당하는 일련의 트리 노드로 분해한 다음 이러한 트리 노드에 저장된 부분 콘텐츠를 사용하여 증명 생성 프로세스를 계속합니다. 그림 4는 전체 증명 생성에서 증명 검색 트리를 구축하는 과정을 보여줍니다. 절단: 이 연구는 정책 수준에서 증명 검색 트리를 구축합니다. 여기서 각 트리 가장자리는 정책 상태의 단일 전환 단계를 나타냅니다. 먼저, 연구에서는 모델에서 생성된 전체 증명을 Lean 증명자에게 제출하고 이를 정책으로 구문 분석합니다. 그런 다음 증명은 가장 빠른 검증 오류에서 잘려서 모든 후속 전략 코드가 성공적으로 적용되어 원하는 정리에 대한 증명을 진행할 수 있습니다. 전략 코드는 여러 코드 조각으로 분할되며 각 코드 조각에는 전략 상태 전환을 나타내는 단일 트리 가장자리에 해당하는 유효한 전략 코드와 관련 사고 체인 주석이 포함되어 있습니다. 이 추상화를 통해 각 정책 코드는 일련의 트리 노드로 변환되어 루트에서 특정 노드까지의 경로를 형성합니다. 다시 시작: Lean 4에서는 서로 다른 전략이 동일한 전략 상태로 이어질 수 있습니다. 이는 증명 트리의 각 노드가 동일한 결과를 달성할 수 있는 여러 전략 코드에 해당할 수 있음을 의미합니다. 이 문제를 해결하기 위해 연구원들은 각 노드에 이러한 동등한 정책 코드 세트를 저장합니다.当树搜索智能体展开一个节点时,它会随机选择一个策略作为语言模型的提示。接下来文章介绍了内在奖励驱动的探索算法 —— 应用于树搜索的 RMax(RMax applied to Tree Search,RMaxTS),将无奖励探索纳入证明搜索问题。RMax 应用于 MCTS。该研究采用 RMax 这一经典探索机制来构建蒙特卡洛树搜索的内在奖励。在证明搜索的上下文中,证明完成之前不提供外部奖励,此算法过程类似于 ZeroRMax ,其中智能体的探索仅由内在奖励驱动,即设置。树扩展步骤的内在奖励取决于是否向搜索树中添加新节点这种启发式方法可以潜在地减少冗余生成并提高样本效率。在本节中,研究者使用 miniF2F 和 ProofNet 这两个基准来评估 DeepSeek-Prover-V1.5 的定理证明能力。前者包括高中水平的练习和竞赛问题,后者则涉及本科水平的定理。为了确保一致性,研究者使用了与评估中相同的训练模型和推理配置,展示了完整证明生成和蒙特卡洛树搜索方法的结果。首先,论文介绍了 DeepSeek-Prover-V1.5 与之前的一些 SOTA 模型的对比分析,重点展示了其性能和进步。
GPT-3.5 和 GPT-4 是 OpenAI 开发的高级生成式 AI 模型,因其在包括代码生成在内的各种任务中的有效性而闻名。尽管这些模型并非专为定理证明而设计,但其广泛的参数范围提供了重要的能力。COPRA 促进了这些模型在形式定理证明中的评估,它是一个上下文学习智能体,利用这些大语言模型提出战术应用。此外,研究者还讨论了 Llemma,这是一系列在广泛的通用数学语料库上训练的语言模型,通常用作形式定理证明的基础模型。
GPT-f 是将 Transformers 应用于定理证明任务的证明步骤生成的初步尝试,它利用最佳优先搜索模块来构建完整的证明。后续的一些进展包括 ReProver、LLMStep 和 Lean-STaR。Hypertree Proof Search 利用 Lean 探索了蒙特卡洛树搜索在形式定理证明中的应用。同期的 InternLM2-Math 和 InternLM2-StepProver 也表现出卓越的性能。然后,研究者将这些模型与 DeepSeek-Prover-V1.5 进行了对比。表 1 提供了各种定理证明方法在 miniF2F 测试数据集上的对比分析。在单通道完整证明生成设置中,DeepSeekProver-V1.5-RL 的通过率最高,达到 60.2%,比 DeepSeek-Prover-V1 的 50.0% 提高了 10.2 个百分点。DeepSeek-Prover-V1.5-RL 将采样预算限制在 128 次尝试,证明了 51.6% 的问题,明显优于其他 whole-proof 生成方法,与领先的树搜索方法不相上下。在树搜索方法类别中,DeepSeek-Prover-V1.5-RL + RMaxTS 以 62.7% 的通过率遥遥领先,确立了新的 SOTA 水平,与现有方法拉开了很大差距。值得注意的是,DeepSeek-Prover-V1.5-RL 只需要 3200 次完整证明采样就能达到 54.9% 的通过率,超过了 InternLM2-StepProver 之前的 SOTA 水平,后者需要执行 64 × 3200 次树搜索才能达到 54.5% 的通过率。表 2 列出了各种定理证明方法在 ProofNet 数据集上的对比分析。DeepSeek-Prover-V1.5-RL 在整个 ProofNet 数据集上的通过率分别达到了 22.6% 和 25.3%。These results exceed existing SOTA methods ReProver (13.8%) and InternLM2-StepProver (18.1%). When the number of complete proof generation attempts is limited to 3200, DeepSeek-Prover-V1.5 also proves 21.7% of theorems, a 3.6% improvement over the previous state-of-the-art InternLM2-StepProver. Re-examining the effect of training strategies in large-scale samplingResearchers re-examined the effect of multiple training modules in large-scale sampling environments, focusing on single-channel complete proof generation and Monte Carol tree search. Table 3 compares the performance of two generation modes, non-CoT and CoT, on the miniF2F-test dataset, showing that as the sample budget increases, the advantage of CoT over non-CoT mode is amplified. In the ablation experiment, the researchers tested the algorithm design of RMaxTS. Experiments are conducted in CoT mode using DeepSeek-Prover-V1.5-RL on the miniF2F test dataset. As shown in Figure 5, the left side shows the curve of Pass@K accuracy within 6400 generated samples, and the right side shows the results with a larger sample size. The above is the detailed content of DeepSeek open source large mathematical model, new SOTA for high school and college theorem proving. For more information, please follow other related articles on the PHP Chinese website!