


GPT-3의 수학 문제 해결 정확도가 92.5%로 향상되었습니다! Microsoft는 미세 조정 없이 '과학' 언어 모델을 만들 수 있는 MathPrompter를 제안합니다.
심각한 넌센스를 제외하고 대규모 언어 모델의 가장 비판받는 단점은 아마도 "수학을 할 수 없다는 것"일 것입니다.
예를 들어 다단계 추론이 필요한 복잡한 수학적 문제의 경우 언어 모델은 일반적으로 "사고 사슬" 기술의 축복에도 불구하고 오류가 자주 발생합니다. 중간 단계에서.
교양 분야의 자연어 이해 작업과 달리 수학적 질문에는 정답이 하나만 있고 답변 범위가 덜 개방되어 대규모 언어 모델의 경우 정확한 솔루션을 생성하는 작업이 더 어려워지는 경우가 많습니다.
더욱이, 수학 문제의 경우 기존 언어 모델은 일반적으로 답변에 대한 신뢰도를 제공하지 않으므로 사용자는 생성된 답변의 신뢰성을 판단할 수 없습니다.
이 문제를 해결하기 위해 Microsoft Research에서는 예측 의존도를 높이면서 산술 문제에 대한 LLM의 성능을 향상시킬 수 있는 MathPrompter 기술을 제안했습니다.
논문 링크: https://arxiv.org/abs/2303.05398
MathPrompter는 Zero-shot Thinking Chain Prompter 기술을 사용하여 여러 대수식 또는 Python 함수를 생성하여 동일한 수학 문제를 다양한 방식으로 해결합니다. , 이를 통해 출력 결과의 신뢰성이 향상됩니다.
다른 힌트 기반 CoT 방법과 비교하여 MathPrompter는 중간 단계의 유효성도 확인합니다.
175B 매개변수 GPT를 기반으로 MathPrompter 방법을 사용하여 MultiArith 데이터 세트의 정확도를 78.7%에서 92.5%로 높였습니다!
수학 전문 프롬프
최근 자연어 처리의 발전은 놀라운 제로샷과 소수의 -샷 능력을 보여준 대형언어모델(LLM)의 지속적인 규모 확장에 크게 기인한다. 또한 프롬프트 기술 개발에 기여했습니다. 사용자는 프롬프트에서 LLM에 몇 가지 간단한 샘플만 입력하면 새로운 작업을 예측할 수 있습니다.
단일 단계 작업에서는 프롬프트가 꽤 성공적이라고 할 수 있지만, 다단계 추론이 필요한 작업에서는 프롬프트 기술의 성능이 아직 부족합니다.
인간은 복잡한 문제를 해결할 때 이를 분해하여 단계별로 해결하려고 노력합니다. CoT(사고 사슬) 프롬프트 기술은 추론이 필요한 일련의 작업을 통해 이러한 직관을 LLM으로 확장합니다. . NLP 작업의 성능이 향상되었습니다.
이 문서에서는 주로 "수학적 추론 작업을 해결하기 위한" Zero-shot-CoT 방법을 연구합니다. 이전 작업에서는 MultiArith 데이터 세트의 정확도가 17.7%에서 78.7%로 크게 향상되었습니다. 그러나 여전히 두 가지 주요 단점이 있습니다. :
1. 모델에 따른 사고 체인은 결과를 향상시키지만 사고 체인 프롬프트에 따른 각 단계의 효율성을 확인하지는 않습니다.
2 LLM 예측 결과에 대한 신뢰도를 제공하지 않습니다. .
MathPrompter
이러한 격차를 어느 정도 해결하기 위해 연구자들은 "인간이 수학 문제를 해결하는 방식"에서 영감을 받아 복잡한 문제를 더 간단한 다단계 절차로 나누고 여러 방법을 사용하여 각 문제를 해결합니다. 한 단계의 방법.
LLM은 생성 모델이므로 특히 수학적 추론 작업의 경우 생성된 답변이 정확한지 확인하는 것이 매우 까다롭습니다.
연구원들은 학생들이 산술 문제를 해결하는 과정을 관찰하고 학생들이 답을 확인하기 위해 취한 몇 가지 단계를 요약했습니다.
알려진 결과 준수 솔루션을 알려진 결과와 비교하여 문제가 성숙한 솔루션의 표준 문제인 경우 정확성을 평가하고 필요한 조정을 할 수 있습니다. 이는 특히 유용합니다.
다중 검증은 문제에 여러 각도에서 접근하고 결과를 비교함으로써 솔루션의 효율성을 확인하는 데 도움이 되며 솔루션이 합리적이고 정확하다는 것을 보장합니다.
교차 확인, 문제를 해결하는 과정은 최종 답변만큼이나 필요합니다. 프로세스의 중간 단계가 올바른지 확인하면 솔루션 뒤에 있는 사고 과정을 명확하게 이해할 수 있습니다.
계산 확인, 계산기나 컴퓨터를 사용하여 산술 계산을 수행하면 최종 답변의 정확성을 확인하는 데 도움이 될 수 있습니다
구체적으로 Q라는 질문이 주어지면
레스토랑의 경우 성인 식사 가격은 5달러이고 어린이는 무료입니다. 15명이 들어오고 그 중 8명이 어린이라면 이 일행이 식사하는 데 드는 비용은 얼마입니까?
1. 대수 템플릿 생성
먼저 키-값 매핑을 사용하여 숫자 항목을 변수로 대체하여 문제를 대수 형식으로 변환한 다음 수정된 문제 Qt를 얻습니다
2. Math-prompts
위의 다중 검증 및 교차 확인 과정에서 제공되는 직관을 기반으로 Qt 분석 솔루션을 생성하는 데 두 가지 방법, 즉 Algebraically 및 Pythonicly가 사용됩니다. , LLM에는 Qt에 대한 추가 컨텍스트를 생성하기 위해 다음 힌트가 제공됩니다.
프롬프트는 "대수식 파생" 또는 "Python 함수 작성"일 수 있습니다.
LLM 모델은 프롬프트에 응답한 후 다음 표현식을 출력할 수 있습니다.
위에서 생성된 분석 계획은 사용자에게 LLM의 "중급 사고 과정"에 대한 팁을 제공합니다. 추가 팁을 추가하면 결과의 정확성과 일관성이 향상될 수 있으며 결과적으로 MathPrompter가 더욱 정확하고 효과적인 솔루션을 제공하는 능력.
3. 계산 검증
Qt에서 입력 변수의 여러 무작위 키-값 맵을 사용하여 이전 단계에서 생성된 표현식을 평가하고 Python의 eval() 메서드를 사용하여 이러한 표현식을 평가합니다. 평가하다.
그런 다음 출력 결과를 비교하여 답변에서 합의점을 찾을 수 있는지 확인하면 답변이 정확하고 신뢰할 수 있다는 더 높은 확신을 제공할 수도 있습니다.
표현식이 출력에 동의하면 입력 Q의 변수 값을 사용하여 최종 답을 계산합니다.
4. 통계적 유의성
다양한 표현식의 출력에 대한 합의를 보장하기 위해 실험에서 2단계와 3단계를 약 5회 반복하고 관찰된 가장 빈번한 응답 값을 보고합니다.
명확한 합의가 없는 경우 2, 3, 4단계를 반복합니다.
실험 결과
MultiArith 데이터 세트에서 MathPrompter를 평가합니다. 수학적 질문은 특히 기계 학습 모델의 복잡한 산술 연산 및 추론 능력을 테스트하는 데 사용됩니다. 성공적으로 해결합니다.
MultiArith 데이터 세트의 정확도 결과에 따르면 MathPrompter는 모든 Zero-shot 및 Zero-shot-CoT 기준선보다 성능이 뛰어나 정확도가 78.7%에서 92.5%로 증가합니다.
다음과 같이 볼 수 있습니다. 175B 매개변수 GPT3 DaVinci를 기반으로 하는 MathPrompter 모델의 성능은 540B 매개변수 모델 및 SOTA의 Few-shot-CoT 방법과 비슷합니다.
위 표에서 볼 수 있듯이 MathPrompter의 디자인은 "생성된 답변이 때때로 한 단계 차이가 나는 경우가 있습니다"와 같은 문제를 보완할 수 있는데, 이는 모델을 여러 번 실행하면 피할 수 있습니다. 그리고 합의 결과를 보고합니다.
또한 추론 단계가 너무 길어질 수 있는 문제는 일반적으로 더 적은 수의 토큰이 필요한 Pythonic 또는 Algebraic 방법으로 해결할 수 있습니다.
또한 추론 단계는 정확할 수 있지만 최종 계산 결과는 정확하지 않은 경우 MathPrompter는 Python의 eval() 메서드 함수를 사용하여 이 문제를 해결합니다.
대부분의 경우 MathPrompter는 올바른 중간 및 최종 답변을 생성할 수 있지만 표의 마지막 질문과 같이 대수 및 Pythonic 출력이 일관되지만 오류가 있는 경우가 몇 가지 있습니다.
위 내용은 GPT-3의 수학 문제 해결 정확도가 92.5%로 향상되었습니다! Microsoft는 미세 조정 없이 '과학' 언어 모델을 만들 수 있는 MathPrompter를 제안합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











DALL-E 3는 이전 모델보다 대폭 개선된 모델로 2023년 9월 공식 출시되었습니다. 복잡한 디테일의 이미지를 생성할 수 있는 현재까지 최고의 AI 이미지 생성기 중 하나로 간주됩니다. 그러나 출시 당시에는 제외되었습니다.

AI는 실제로 수학을 변화시키고 있습니다. 최근 이 문제에 주목하고 있는 타오저쉬안(Tao Zhexuan)은 '미국수학회지(Bulletin of the American Mathematical Society)' 최신호를 게재했다. '기계가 수학을 바꿀 것인가?'라는 주제를 중심으로 많은 수학자들이 그들의 의견을 표현했습니다. 저자는 필즈상 수상자 Akshay Venkatesh, 중국 수학자 Zheng Lejun, 뉴욕대학교 컴퓨터 과학자 Ernest Davis 등 업계의 유명 학자들을 포함해 강력한 라인업을 보유하고 있습니다. AI의 세계는 극적으로 변했습니다. 이 기사 중 상당수는 1년 전에 제출되었습니다.

ChatGPT와 Python의 완벽한 조합: 지능형 고객 서비스 챗봇 만들기 소개: 오늘날의 정보화 시대에 지능형 고객 서비스 시스템은 기업과 고객 간의 중요한 커뮤니케이션 도구가 되었습니다. 더 나은 고객 서비스 경험을 제공하기 위해 많은 기업이 고객 상담, 질문 답변 등의 업무를 완료하기 위해 챗봇을 활용하기 시작했습니다. 이 기사에서는 OpenAI의 강력한 모델인 ChatGPT와 Python 언어를 사용하여 지능형 고객 서비스 챗봇을 만드는 방법을 소개합니다.

설치 단계: 1. ChatGTP 공식 웹사이트 또는 모바일 스토어에서 ChatGTP 소프트웨어를 다운로드합니다. 2. 이를 연 후 설정 인터페이스에서 언어를 중국어로 선택합니다. 3. 게임 인터페이스에서 인간-기계 게임을 선택하고 설정합니다. 4. 시작한 후 채팅 창에 명령을 입력하여 소프트웨어와 상호 작용합니다.

이 기사에서는 ChatGPT와 Java를 사용하여 지능형 챗봇을 개발하는 방법을 소개하고 몇 가지 구체적인 코드 예제를 제공합니다. ChatGPT는 자연어를 이해하고 인간과 유사한 텍스트를 생성할 수 있는 신경망 기반 인공지능 기술인 OpenAI가 개발한 Generative Pre-training Transformer의 최신 버전입니다. ChatGPT를 사용하면 적응형 채팅을 쉽게 만들 수 있습니다.

chatgpt는 중국에서는 사용할 수 있지만 등록할 수 없으며, 홍콩, 마카오에서는 등록을 원하는 경우 외국 휴대폰 번호를 사용하여 등록할 수 있습니다. 등록 과정에서 네트워크 환경을 전환해야 합니다. 외국 IP로.

ChatGPT와 Python을 사용하여 사용자 의도 인식 기능을 구현하는 방법 소개: 오늘날 디지털 시대에 인공지능 기술은 점차 다양한 분야에서 없어서는 안 될 부분이 되었습니다. 그 중 자연어 처리(Natural Language Process, NLP) 기술의 발달로 기계가 인간의 언어를 이해하고 처리할 수 있게 됐다. ChatGPT(Chat-GeneratingPretrainedTransformer)는 일종의

ChatGPTPHP를 사용하여 지능형 고객 서비스 로봇을 구축하는 방법 소개: 인공 지능 기술의 발전으로 로봇이 고객 서비스 분야에서 점점 더 많이 사용되고 있습니다. ChatGPTPHP를 사용하여 지능형 고객 서비스 로봇을 구축하면 기업이 보다 효율적이고 개인화된 고객 서비스를 제공하는 데 도움이 될 수 있습니다. 이 기사에서는 ChatGPTPHP를 사용하여 지능형 고객 서비스 로봇을 구축하는 방법을 소개하고 특정 코드 예제를 제공합니다. 1. ChatGPTPHP를 설치하고 ChatGPTPHP를 사용하여 지능형 고객 서비스 로봇을 구축합니다.
