복잡한 수학적 추론은 대규모 언어 모델의 추론 능력을 평가하는 중요한 지표입니다. 현재 일반적으로 사용되는 수학적 추론 데이터 세트는 표본 크기가 제한되어 있고 문제 다양성이 부족하여 대규모로 "저주 반전" 현상이 나타나고 있습니다. 언어 모델, 즉 "A"에 대해 훈련받은 사람 "is B"라는 언어 모델은 "B is A"로 일반화될 수 없습니다[1]. 수학적 추론 작업에서 이러한 현상의 구체적인 형태는 다음과 같습니다. 수학적 문제가 주어지면 언어 모델은 문제를 해결하기 위해 순방향 추론을 사용하는 데 능숙하지만 역추론으로 문제를 해결하는 능력이 부족합니다. 역추론은 다음 2가지 예에서 볼 수 있듯이 수학 문제에서 매우 일반적입니다.
모델의 순방향 및 역방향 추론 기능을 향상시키기 위해 Cambridge, Hong Kong University of Science and Technology 및 Huawei의 연구원은 일반적으로 사용되는 두 가지 수학적 데이터 세트(GSM8K 및 MATH)를 기반으로 MetaMathQA 데이터 세트를 제안했습니다. : 넓은 적용 범위와 고품질의 수학적 추론 데이터 세트를 갖춘 것. MetaMathQA는 대규모 언어 모델에 의해 생성된 395K개의 정역수 수학 질문-답변 쌍으로 구성됩니다. 그들은 MetaMathQA 데이터 세트에서 LLaMA-2를 미세 조정하여 수학적 추론(정방향 및 역방향)에 초점을 맞춘 대규모 언어 모델인 MetaMath를 얻었으며 이는 수학적 추론 데이터 세트에서 SOTA에 도달했습니다. 다양한 규모의 MetaMathQA 데이터 세트와 MetaMath 모델은 연구자들이 사용할 수 있도록 오픈 소스로 제공되었습니다.
GSM8K-Backward 데이터 세트에서 역추론 실험을 구성했습니다. 실험 결과에 따르면 SFT, RFT 및 WizardMath와 같은 방법과 비교하여 현재 방법은 역추론 문제에서 성능이 좋지 않은 것으로 나타났습니다. 대조적으로 MetaMath 모델은 순방향 추론과 역방향 추론 모두에서 탁월한 성능을 달성합니다. 1. 답변 확대:
질문이 주어지면 올바른 결과를 얻을 수 있는 사고 체인이 데이터 증강으로 대규모 언어 모델을 통해 생성됩니다.
답변: 제임스는 4파운드짜리 쇠고기 5팩을 삽니다. 그래서 그는 총 5 * 4 = 20파운드의 쇠고기를 구매합니다. 쇠고기 가격은 파운드당 $5.50이므로 그는 20 * $5.50 = $110를 지불합니다.
2. 질문(질문 재작성 강화):
메타 질문이 주어지면 대규모 언어 모델을 통해 질문을 재작성하고 데이터 증강으로 올바른 결과를 얻는 사고 체인을 생성합니다.
3. FOBAR 질문(FOBAR 역질문 강화): 메타 질문이 있는 경우 마스크 조건의 숫자는 x이며, 원래 답변이 주어지고 x를 반전하여 역질문을 생성합니다. 이 역 문제는 데이터 증대를 수행하기 위한 올바른 사고 체인을 생성합니다(역전의 예: "위 질문에 대한 답이 110이라는 것을 알고 있다면 알 수 없는 변수 x의 값은 무엇입니까?").
4. 자가 검증 질문(자가 검증 역질문 강화): FOBAR를 기반으로 역질문 부분을 대규모 언어 모델을 통해 문장으로 재작성하여 데이터 증대를 수행합니다. 그는 지불합니까?”(답은 110)는 “그는 110을 지불했습니다”로 다시 작성되었습니다.
MetaMathQA가 왜 유용한가요? 사고체인 데이터의 품질(Perplexity) 향상
위 그림과 같이 연구진은 답변 전용 데이터인 GSM8K CoT의 각 부분에서 LLaMA-2-7B 모델을 계산했습니다. MetaMathQA 데이터는 혼란 수준을 설정합니다. MetaMathQA 데이터 세트의 복잡성은 다른 두 데이터 세트보다 현저히 낮습니다. 이는 학습 가능성이 더 높고 모델의 잠재 지식을 드러내는 데 더 도움이 될 수 있음을 나타냅니다
MetaMathQA가 유용한 이유는 무엇인가요? 사고체인 데이터의 다양성 증가
데이터의 다양성 이득과 모델의 정확도 이득을 비교한 결과, 연구원들은 재구성, FOBAR 및 SV를 통해 동일한 양의 증강 데이터를 도입하면 모두 명백한 다양성 이득을 가져오고 모델이 크게 향상된다는 것을 발견했습니다. 정확성. 대조적으로, 답변 확대만을 사용하면 정확도가 상당히 포화되었습니다. 정확도가 포화 상태에 도달한 후 AnsAug 데이터를 추가해도 성능 향상은 제한적입니다
위 내용은 역 사고: MetaMath의 새로운 수학적 추론 언어 모델은 대형 모델을 훈련시킵니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!