AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
최근에는 LLM(대형 언어 모델)이 수학적 응용 문제, 수학적 정리 증명 등의 작업에서 큰 진전을 이루었습니다. 수학적 추론에는 엄격하고 공식화된 다단계 추론 프로세스가 필요하므로 LLM의 추론 능력 향상에 있어 중요한 이정표이지만 여전히 중요한 과제에 직면해 있습니다. CoT(Chain of Thoughts)와 같은 이전 연구에서는 중간 단계 지침의 효과가 밝혀졌습니다. 그러나 이러한 중간 단계를 수동으로 주석 처리하려면 많은 인력과 시간이 필요하며 자동으로 합성된 데이터는 정확성 및 인간 가독성에 문제가 발생하기 쉽습니다. 이 기사에서 홍콩 시립대학교, 쑨원대학교, 화웨이 노아의 방주 연구소 및 기타 기관의 연구원들은 통일된 수학적 추론 데이터 합성 프레임워크 MUSTARD를 제안합니다. 인간이 읽고 이해할 수 있는 고품질 수학적 추론 데이터입니다.
- 논문 제목: MUSTARD: Mastering 균일한 합성 of 정리 및 증명 데이터
- 논문 링크: https://openreview.net/forum?id=8xliOUg9EW
- 코드 링크: https:/ // /github.com/Eleanor-H/MUSTARD
- 데이터세트 링크: https://drive.google.com/file/d/1yIVAVqpkC2Op7LhisG6BJJ_-MavAMr1B/view
- 저자 홈페이지: https://eleanor - h.github.io/
정식 증명자를 활용한 고품질 데이터 합성 프레임워크MUSTARD 프레임워크는 3단계로 구성됩니다. Phase 1, 개념 습득 : 첫째, 초등학교, 중학교, 고등학교, 고등교육의 4개 교육 단계에 대한 개념을 다루는 수학 개념 라이브러리를 정의하고 구축합니다. 각 교육 단계에는 5~9개의 수학 영역이 있으며, 다양한 유형의 수학 문제를 다루고 있습니다. 대수학과 기하학으로. 각 영역에는 다항식 연산이나 인수분해와 같은 세분화된 수학적 개념이 포함되어 있습니다. 그런 다음 생성된 질문 범주를 지정하기 위해 하나 이상의 수학적 개념이 수학적 개념 데이터베이스에서 시드로 추출됩니다. 두 번째 단계, 데이터 생성: 대규모 언어 모델이 수학적 개념을 기반으로 수학적 문제와 다단계 해결 프로세스를 생성하도록 유도합니다. 특히 MUSTARD는 대규모 언어 모델의 기능을 활용하여 자연어 및 코드를 생성하여 대규모 언어 모델이 세 가지 작업을 완료하도록 합니다. (T1) 주어진 개념과 관련된 수학적 문제를 생성합니다. (T2) 자연어 문제에 대한 솔루션을 제공합니다. (T3) 자동 형식화, 자연어 솔루션을 Lean 3 형식 솔루션으로 변환합니다. 세 번째 단계, 형식 검증: 대화형 형식 정리 증명자의 검증을 사용하여 정확한 풀이 과정을 선별합니다. MUSTARD가 Lean 3의 정형해를 Lean 정형 검증자에게 전달한 후 정리 증명자가 오류 정보를 반환하지 않으면 해당 데이터를 유효한 집합으로 수집합니다. 그렇지 않으면 MUSTARD는 정리 증명자로부터 오류 메시지를 수집하고 언어 모델에 형식 솔루션을 수정하라는 메시지를 표시합니다. MUSTARD는 유효한 공식 솔루션을 얻을 때까지 여러 차례의 검증 및 자체 수정을 수행합니다. MUSTARD 프레임워크는 개념 수집, 데이터 생성, 형식 검증의 세 단계로 구성됩니다.MUSTARD에서 생성된 데이터의 품질을 탐색하기 위해 연구팀은 수학 및 Lean 3 언어에 능숙한 전문가에게 품질 검사를 수행하도록 요청했습니다. 데이터에. 생성된 데이터에서 무작위로 200개의 항목을 선택했는데, 그 중 Lean 정리 증명자의 검증을 통과한 항목은 100개(유효 그룹), 검증을 통과하지 못한 항목(유효 그룹)은 100개였습니다. 품질 검사는 정확성과 일관성 검사를 포함하여 각 데이터 부분(즉, 자연어 문제 설명, 자연어 솔루션, 형식적 문제 설명, 형식적 솔루션)의 네 부분을 다룹니다. 특히 고품질 데이터에는 올바른 자연어 문제 설명(D1)과 올바른 문제 해결(D4)이 있어야 합니다. 공식적인 문제 설명 및 해결 방법은 자연어 문제 설명 및 해결 방법(D5, D6)과 일치해야 합니다. 또한 데이터는 지정된 수학적 개념(D2) 및 문제 유형(D3)을 준수해야 합니다. 표 3은 이러한 6가지 검사 차원과 요구 사항을 보여줍니다. 데이터가 요구 사항을 충족하면 차원에서 1점을 받고, 그렇지 않으면 0점을 얻습니다. 표 3은 각 차원에서 유효 그룹과 유효 그룹의 정확도와 해당 p-값을 보여줍니다. (D1)과 (D4)의 중요한 차이는 MUSTARD에서 생성된 질문과 답변의 정확성을 보여줍니다. (D6)의 유의미한 차이는 자연어 설명과 생성된 데이터의 형식 설명 간의 높은 일관성을 나타냅니다. 모델의 수학적 추론 능력에 대한 데이터의 유효성 연구팀은 MUSTARDSAUCE가 수학적 추론 능력 향상에 미치는 영향을 평가하기 위해 이러한 데이터를 사용하여 소규모 언어를 미세 조정했습니다. 모델 및 수행 수학 단어 문제(MWP) 및 자동 정리 증명(ATP)에 대해 평가됩니다. 이 기사에서는 MUSTARDSAUCE 데이터 세트의 다음 결합 데이터의 효율성을 비교합니다.
- MUSTARDSAUCE-valid: Lean 형식 증명자에 의해 검증된 5866개의 데이터
- MUSTARDSAUCE-invalid: Lean을 통과하지 못했습니다. 공식 증명자에 의해 검증된 5866개의 데이터
- MUSTARDSAUCE-random: 5866개의 무작위 데이터
- MUSTARDSAUCE-tt: MUSTARD에서 생성된 모든 28316개의 데이터.
연구팀은 LoRA[1]를 사용하여 결합된 각 데이터에 대해 오픈 소스 GPT2-large[2], Llama 2-7B 및 Llama 2-70B[3]를 미세 조정합니다. 수학 단어 문제 작업의 경우 평가를 위해 GSM8K[4] 및 MATH[5][6] 데이터 세트를 사용했습니다. 자동화된 정리 증명을 평가할 때 연구팀은 Mathlib [8] 및 miniF2F [7] 벤치마크를 사용했습니다. 또한 MUSTARDSAUCE 테스트에서도 평가되었습니다. 일반적으로 MUSTARDSAUCE에서 모델을 미세 조정하면 모델의 수학적 추론 기능이 향상됩니다. 자동 정리 증명(아래 표 5)과 수학적 응용 문제 해결(아래 표 4)에서 미세 조정을 위해 MUSTARDSAUCE-valid를 사용한 경우 미세 조정을 위해 MUSTARDSAUCE-random을 사용한 것과 비교하여 평균 상대 성능이 18.15% 증가했습니다(표 5 아래) 및 11.01%%(아래 표 4). 자동 정리 증명의 경우 미세 조정된 Llama 2-7B의 평균 성능 향상은 15.41%이고, 미세 조정된 GPT 2-large의 평균 성능 향상은 20.89%입니다. 수학 응용 문제 해결을 위해 미세 조정된 Llama 2-7B의 평균 성능이 8.18% 향상되었으며, 미세 조정된 GPT 2-large의 평균 성능이 15.41% 향상되었습니다. 또한, MUSTARDSAUCE-tt로 미세 조정된 모델은 미세 조정된 데이터 양에서 절대 우위를 가지지만, MUSTARDSAUCE-valid로 미세 조정된 모델만큼 성능이 좋지는 않습니다. Llama 2-70B에 대한 추가 결과. MUSTARDSAUCE 데이터는 더 큰 언어 모델을 미세 조정할 때 유효한 상태로 유지됩니다. 이 문서는 MUSTARDSAUCE 데이터 세트를 오픈 소스로 제공했습니다. 각 데이터에는 자연어로 된 문제 설명과 다단계 해결 방법뿐만 아니라 이중 형식 언어인 Lean 3의 문제 설명과 다단계 해결 방법도 포함되어 있습니다. MUSTARDSAUCE의 데이터에는 수학 응용 문제와 정리 증명 문제가 포함되어 있으며 초등학교부터 고등 교육까지의 난이도를 다루고 있습니다. 질문의 난이도에 따라 질문에 대한 추론 단계의 수가 증가합니다. 가장 어려운 질문을 해결하려면 약 30가지 단계와 약 20가지 Lean 3 전술이 필요합니다.資料集下載:https://drive.google.com/file/d/1yIVAVqpkC2Op7LhisG6BJJ_-MavAMr1B/view化 研究團隊還基於MUSTARDSAUCE 數據集的自然語言和Lean 形式語言的對偶數據,開放了一個自動形式化(autoformalization)和一個自動非形式化(auto-informalization)的挑戰賽。此外,研究團隊也同步開放了自動定理產生和證明(automated theorem generation and proving)和程式設計輔助的運籌最佳化問題自動求解(automated optimization problem-solving with code)等兩個挑戰賽賽道。比賽時間為 2024 年 4 月 3 日 – 5 月 27 日。優勝隊伍將有機會參加 7 月 26 日於奧地利維也納舉辦的 ICML 2024 AI for Math 研討會。 賽道1-1 (自動形式化):https://www.codabench.org/competitions/2436/賽道1-2(自動非形式化):自動非形式化): //www.codabench.org/competitions/2484/
-
賽道2 (自動定理產生與證明):https://www.codabench.org/competitions/2437/
-
賽道3 (代碼輔助的運籌最佳化問題自動求解):https://www.codabench.org/competitions/2438/
參考文獻:
參考文獻:y , Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685, 2021. Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever, et al. Language models are unsupervised multitask learners. OpenAI blog, 1 (8):9, 2019. Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Niko- lay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, Dan Bikel, Lukas Blecher, Cristian Canton-Ferrer, Moya Chen, Guillembu, Lukas Blecher, Cristian Canton-Ferrer, Moya Chen, Guil , Jude Fernandes, Jeremy Fu, Wenyin Fu, Brian Fuller, Cynthia Gao, Vedanuj Goswami, Naman Goyal, Anthony Hartshorn, Saghar Hosseini, Rui Hou, Hakan Inan, Marcin Kardas, Viktor Kerkez, Madian Khabsa, Isabel Klou, Puniten Kardas, Singh Koura, Marie-Anne Lachaux, Thibaut Lavril, Jenya Lee, Diana Liskovich, Yinghai Lu, Yuning Mao, Xavier Martinet, Todor Mihaylov, Pushkar Mishra, Igor Molybog, Yixin Nie, Andrew Poulton, Jeremy Reizenstein, Rashi Rungta, Kalyan Saladi Alan Schelten, Ruan Silva, Eric Michael Smith, Ranjan Subramanian, Xiaoqing Ellen Tan, Binh Tang, Ross Taylor, Adina Williams, Jian Xiang Kuan, Puxin Xu, Zheng Yan, Iliyan Zarov, Yuchen Zhang, Angela Fan, Melanie Kambadur, Zheng Yan, Iliyan Zarov, Yuchen Zhang, Angela Fan, Melanie Kambadur, Sharan Narang , Aure ́lien Rodriguez, Robert Stojnic, Sergey Edunov, and Thomas Scialom. Llama 2: Open foundation and fine- tuned chat models. CoRR, abs/2307.09288, 2023. doi: 10.48550/ardoiX. org/10.48550/arXiv.2307.09288.[4] Karl Cobbe, Vineet Kosaraju, Mohammad Bava☺ and John Schulman. Training verifiers to solve math word problems. CoRR, abs/2110.14168, 2021.[5] Dan Hendrycks, Collin[5] Dan Hendrycks,科and Jacob Steinhardt. Measuring mathematical problem solving with the MATH dataset. In Joaquin Vanschoren and Sai-Kit Yeung (eds.), Proceedings of the Neural Information Processing Systems Track on Datasets and Benchmarks 1, NeurIPS Datasets and Benchmarks Track on Datasets and Benchmarks 1, NeurIPS Datasets and Benchmark 2021212021 2021 , virtual, 2021.[6] Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, and Karl Cobbe. . arXiv preprint arXiv:2305.20050, 2023.[7] Kunhao Zheng, Jesse Michael Hancront Repre- sentations, ICLR 2022, Virtual Event, April 25-29, 2022. OpenReview.net, 2022.[8] https://github.com/leanprof-community위 내용은 ICLR 2024 Spotlight | MUSTARD는 중간 단계를 걱정할 필요 없이 고품질의 수학적 추론 데이터를 생성할 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!