> 기술 주변기기 > 일체 포함 > 역 사고: MetaMath의 새로운 수학적 추론 언어 모델은 대형 모델을 훈련시킵니다.

역 사고: MetaMath의 새로운 수학적 추론 언어 모델은 대형 모델을 훈련시킵니다.

WBOY
풀어 주다: 2023-10-11 16:13:01
앞으로
992명이 탐색했습니다.

복잡한 수학적 추론은 대규모 언어 모델의 추론 능력을 평가하는 중요한 지표입니다. 현재 일반적으로 사용되는 수학적 추론 데이터 세트는 표본 크기가 제한되어 있고 문제 다양성이 부족하여 대규모로 "저주 반전" 현상이 나타나고 있습니다. 언어 모델, 즉 "A"에 대해 훈련받은 사람 "is B"라는 언어 모델은 "B is A"로 일반화될 수 없습니다[1]. 수학적 추론 작업에서 이러한 현상의 구체적인 형태는 다음과 같습니다. 수학적 문제가 주어지면 언어 모델은 문제를 해결하기 위해 순방향 추론을 사용하는 데 능숙하지만 역추론으로 문제를 해결하는 능력이 부족합니다. 역추론은 다음 2가지 예에서 볼 수 있듯이 수학 문제에서 매우 일반적입니다.

1. 같은 우리에 닭과 토끼

  • 추론: 우리 안에는 닭 23마리와 토끼 12마리가 있습니다.
  • 역추론: 같은 우리에 여러 마리의 닭과 토끼가 있습니다. 위에서부터 세어 보면 머리가 35개이고, 아래에서 세어 보면 다리가 94개입니다. 우리 안에 닭과 토끼가 몇 마리 있나요?

2. GSM8K 문제

  • 정확한 추론: James는 각각 4파운드인 쇠고기 5팩을 구입했습니다. 쇠고기 가격은 파운드당 $5.50입니다.
  • 역추론. : James는 각각 4파운드인 쇠고기 x팩을 구입했습니다. 쇠고기 가격은 파운드당 $5.50입니다. 위 질문에 대한 답이 110이라는 것을 안다면, 알 수 없는 변수 x의 값은 얼마입니까?

모델의 순방향 및 역방향 추론 기능을 향상시키기 위해 Cambridge, Hong Kong University of Science and Technology 및 Huawei의 연구원은 일반적으로 사용되는 두 가지 수학적 데이터 세트(GSM8K 및 MATH)를 기반으로 MetaMathQA 데이터 세트를 제안했습니다. : 넓은 적용 범위와 고품질의 수학적 추론 데이터 세트를 갖춘 것. MetaMathQA는 대규모 언어 모델에 의해 생성된 395K개의 정역수 수학 질문-답변 쌍으로 구성됩니다. 그들은 MetaMathQA 데이터 세트에서 LLaMA-2를 미세 조정하여 수학적 추론(정방향 및 역방향)에 초점을 맞춘 대규모 언어 모델인 MetaMath를 얻었으며 이는 수학적 추론 데이터 세트에서 SOTA에 도달했습니다. 다양한 규모의 MetaMathQA 데이터 세트와 MetaMath 모델은 연구자들이 사용할 수 있도록 오픈 소스로 제공되었습니다.

역 사고: MetaMath의 새로운 수학적 추론 언어 모델은 대형 모델을 훈련시킵니다.

  • 프로젝트 주소: https://meta-math.github.io/
  • 논문 주소: https://arxiv.org/abs/2309.12284
  • 데이터 주소: https: //huggingface.co/datasets/meta-math/MetaMathQA
  • 모델 주소: https://huggingface.co/meta-math
  • 코드 주소: https://github.com/meta-math/ MetaMath

GSM8K-Backward 데이터 세트에서 역추론 실험을 구성했습니다. 실험 결과에 따르면 SFT, RFT 및 WizardMath와 같은 방법과 비교하여 현재 방법은 역추론 문제에서 성능이 좋지 않은 것으로 나타났습니다. 대조적으로 MetaMath 모델은 순방향 추론과 역방향 추론 모두에서 탁월한 성능을 달성합니다. 1. 답변 확대:

질문이 주어지면 올바른 결과를 얻을 수 있는 사고 체인이 데이터 증강으로 대규모 언어 모델을 통해 생성됩니다. 역 사고: MetaMath의 새로운 수학적 추론 언어 모델은 대형 모델을 훈련시킵니다.

질문: 제임스는 4파운드짜리 쇠고기 5팩을 삽니다. 쇠고기 가격은 파운드당 $5.50입니다.

역 사고: MetaMath의 새로운 수학적 추론 언어 모델은 대형 모델을 훈련시킵니다.답변: 제임스는 4파운드짜리 쇠고기 5팩을 삽니다. 그래서 그는 총 5 * 4 = 20파운드의 쇠고기를 구매합니다. 쇠고기 가격은 파운드당 $5.50이므로 그는 20 * $5.50 = $110를 지불합니다.

2. 질문(질문 재작성 강화):

메타 질문이 주어지면 대규모 언어 모델을 통해 질문을 재작성하고 데이터 증강으로 올바른 결과를 얻는 사고 체인을 생성합니다.

  • 질문: 제임스가 각각 무게가 4파운드인 쇠고기 5팩을 파운드당 $5.50에 구매할 때 지불한 총 금액은 얼마입니까?
  • 답변: 쇠고기 한 팩의 무게는 4파운드이므로 5팩입니다. 팩의 무게는 총 4 * 5 = 20파운드입니다. 쇠고기 1파운드당 가격은 $5.50이므로 20파운드의 총 비용은 20 * $5.50 = $110입니다. 따라서 James가 지불한 금액은 $110입니다.

3. FOBAR 질문(FOBAR 역질문 강화): 메타 질문이 있는 경우 마스크 조건의 숫자는 x이며, 원래 답변이 주어지고 x를 반전하여 역질문을 생성합니다. 이 역 문제는 데이터 증대를 수행하기 위한 올바른 사고 체인을 생성합니다(역전의 예: "위 질문에 대한 답이 110이라는 것을 알고 있다면 알 수 없는 변수 x의 값은 무엇입니까?").

  • 질문: James는 각각 4파운드인 쇠고기 x팩을 구입했습니다. 쇠고기 가격은 파운드당 $5.50입니다. 위 질문에 대한 답이 110이라는 것을 안다면 그 가치는 얼마입니까? 의 알 수 없는 변수 x?
  • 답변: James는 각각 4파운드인 쇠고기 x팩을 구입하므로 총 4x파운드의 쇠고기를 구입합니다. 쇠고기 가격은 파운드당 $5.50이므로 쇠고기의 총 비용은 다음과 같습니다. 는 5.50 * 4x = 22x입니다. 총 비용은 $110이므로 다음과 같이 쓸 수 있습니다. 22x = 110. 양변을 22로 나누면 x = 5가 됩니다. x의 값은 5입니다.

4. 자가 검증 질문(자가 검증 역질문 강화): FOBAR를 기반으로 역질문 부분을 대규모 언어 모델을 통해 문장으로 재작성하여 데이터 증대를 수행합니다. 그는 지불합니까?”(답은 110)는 “그는 110을 지불했습니다”로 다시 작성되었습니다.

  • 질문: James는 각각 4파운드인 쇠고기 x팩을 구입합니다. 쇠고기 가격은 파운드당 $5.50입니다. 그는 110을 지불했습니다. 알 수 없는 변수 x의 값은 무엇입니까?
  • 답변: 이 문제를 해결하려면 문제를 해결하려면 James가 구입한 쇠고기 팩 수를 나타내는 x 값을 결정해야 합니다. 쇠고기 한 팩의 무게는 파운드당 5.50달러입니다. 우리는 James가 지불한 총 금액이 $110임을 알 수 있습니다. 다음과 같습니다: 쇠고기 팩 수 * 팩당 무게 * 파운드당 가격 = 지불된 총 금액 x * 4 * $5.50 = $110 x를 단순화하여 계산해 보겠습니다. 4x * $5.50 = $110; 방정식의 양쪽을 22로 나눕니다: 22x / 22 = $110 / 22; x = $5; 수학적 추론 데이터 세트(GSM8K 및 MATH)에 대한 실험 결과는 MetaMath가 기존 개방형보다 훨씬 우수하다는 것을 보여줍니다. LLM 모델의 성능을 향상시키며 외부 도구(예: 코드 해석기)를 사용할 필요가 없습니다. 그 중 MetaMath-7B 모델은 GSM8K에서 66.5%, MATH에서 19.8%의 정확도에 도달했는데, 이는 동일한 규모의 최신 모델보다 각각 11.6%, 9.1% 더 높습니다. 특히 MetaMath-70B가 GSM8K에서 GPT-3.5-Turbo

를 초과하는 82.3%의 정확도를 달성했다는 점은 언급할 가치가 있습니다. "표면 정렬 가설"[2]에 따르면 대규모 언어 모델의 능력은 사전에 다운스트림 작업의 데이터는 사전 훈련 중에 학습된 언어 모델의 고유 기능을 활성화합니다. 따라서 이는 두 가지 중요한 질문을 제기합니다. (i) 어떤 유형의 데이터가 잠재 지식을 가장 효과적으로 활성화하는지, 그리고 (ii) 한 데이터 세트가 다른 데이터 세트보다 그러한 활성화에 더 나은 이유는 무엇입니까?

역 사고: MetaMath의 새로운 수학적 추론 언어 모델은 대형 모델을 훈련시킵니다.MetaMathQA가 왜 유용한가요? 사고체인 데이터의 품질(Perplexity) 향상

역 사고: MetaMath의 새로운 수학적 추론 언어 모델은 대형 모델을 훈련시킵니다.

위 그림과 같이 연구진은 답변 전용 데이터인 GSM8K CoT의 각 부분에서 LLaMA-2-7B 모델을 계산했습니다. MetaMathQA 데이터는 혼란 수준을 설정합니다. MetaMathQA 데이터 세트의 복잡성은 다른 두 데이터 세트보다 현저히 낮습니다. 이는 학습 가능성이 더 높고 모델의 잠재 지식을 드러내는 데 더 도움이 될 수 있음을 나타냅니다

MetaMathQA가 유용한 이유는 무엇인가요? 사고체인 데이터의 다양성 증가

역 사고: MetaMath의 새로운 수학적 추론 언어 모델은 대형 모델을 훈련시킵니다.

데이터의 다양성 이득과 모델의 정확도 이득을 비교한 결과, 연구원들은 재구성, FOBAR 및 SV를 통해 동일한 양의 증강 데이터를 도입하면 모두 명백한 다양성 이득을 가져오고 모델이 크게 향상된다는 것을 발견했습니다. 정확성. 대조적으로, 답변 확대만을 사용하면 정확도가 상당히 포화되었습니다. 정확도가 포화 상태에 도달한 후 AnsAug 데이터를 추가해도 성능 향상은 제한적입니다

위 내용은 역 사고: MetaMath의 새로운 수학적 추론 언어 모델은 대형 모델을 훈련시킵니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿