GPT-4의 수학적 능력은 대단해요! OpenAI의 '프로세스 감독'에 대한 폭발적인 연구로 문제의 78.2%를 돌파하고 환각을 제거합니다.
ChatGPT는 출시 이후 수학적 능력 때문에 비판을 받아왔습니다.
"수학 천재"인 Terence Tao조차도 GPT-4가 자신의 수학 전문 분야에 많은 가치를 추가하지 못했다고 말한 적이 있습니다.
ChatGPT를 "수학 장애자"로 만들려면 어떻게 해야 하나요?
OpenAI는 열심히 노력하고 있습니다 - OpenAI 팀은 GPT-4의 수학적 추론 능력을 향상시키기 위해 "프로세스 감독"(PRM)을 사용하여 모델을 훈련합니다.
차근차근 검증해보겠습니다!
논문 주소: https://cdn.openai.com/improving-mathematical-reasoning-with-process-supervision/Lets_Verify_Step_by_Step.pdf
논문에서 연구원들은 각 보상을 통해 모델을 훈련했습니다. 정답 추론 단계, 즉 "프로세스 감독"은 단순히 올바른 최종 결과에 대한 보상(결과 감독)이 아닌 수학 문제 해결에 있어서 최신 SOTA를 달성합니다.
특히 PRM은 MATH 테스트 세트의 대표적인 하위 집합 문제의 78.2%를 해결합니다.
또한 OpenAI는 "프로세스 감독"이 정렬, 즉 인간이 인식하는 일련의 생각을 생성하도록 모델을 훈련시키는 데 큰 가치가 있음을 발견했습니다.
Sam Altman의 "우리 Mathgen 팀은 공정 감독에서 매우 흥미로운 결과를 얻었으며 이는 정렬의 긍정적인 신호입니다."라는 최신 연구는 물론 전달에 필수적입니다. ” 수동 피드백이 필요하기 때문에 대형 모델 및 다양한 작업에는 비용이 매우 많이 듭니다. 따라서 본 연구는 OpenAI의 향후 연구 방향을 결정짓는 중요한 의의가 있다고 할 수 있다.
수학적 문제 해결
실험에서 연구원들은 MATH 데이터 세트의 문제를 사용하여 "과정 감독"과 "결과 감독"의 보상 모델을 평가했습니다.
그래프는 고려된 솔루션 수에 따라 올바른 최종 답변을 얻은 선택된 솔루션의 비율을 보여줍니다.
"프로세스 감독" 보상 모델은 전반적으로 더 나은 성능을 발휘할 뿐만 아니라 각 문제에 대해 더 많은 솔루션을 고려할 때 성능 격차가 넓어집니다.
이는 "프로세스 감독" 보상 모델이 더 신뢰할 수 있음을 보여줍니다.
아래에서 OpenAI는 모델에 대한 10가지 수학적 문제와 해결책을 보여주고 보상 모델의 장점과 단점에 대한 설명도 제공합니다.
모델은 참(TP), 참음성(TN), 거짓양성(FP)의 세 가지 유형의 지표를 통해 평가되었습니다.
True(TP)
먼저 삼각함수 공식을 단순화해 보겠습니다.
이 까다로운 삼각 함수 문제에는 여러 항등식을 불분명한 순서로 적용해야 합니다.
여기에서 GPT-4는 일련의 복잡한 다항식 분해를 성공적으로 수행합니다.
5단계에서 Sophie-Germain 아이덴티티를 사용하는 것은 중요한 단계입니다. 이 단계는 매우 통찰력이 있음을 알 수 있습니다.
7단계와 8단계에서 GPT-4는 추측과 확인을 수행하기 시작합니다.
이것은 모델이 "환각"을 느끼고 특정 추측이 성공했다고 주장하는 일반적인 장소입니다. 이 경우 보상 모델은 각 단계를 검증하고 일련의 사고가 올바른지 판단합니다.
모델은 표현을 단순화하기 위해 여러 삼각법 항등식을 성공적으로 적용했습니다.
True Negative(TN)
7단계에서 GPT-4는 표현식을 단순화하려고 시도하지만 실패합니다. 보상 모델이 이 버그를 포착했습니다.
11단계에서 GPT-4는 간단한 계산 오류를 범했습니다. 보상 모델에서도 발견되었습니다.
GPT-4는 12단계에서 차이 제곱 공식을 사용하려고 시도했지만 이 표현식은 실제로 차이 제곱이 아닙니다.
8단계의 근거가 이상하지만 보너스 모델을 사용하면 통과됩니다. 그러나 9단계에서 모델은 표현식을 잘못 고려합니다.
보상 모델은 이 오류를 수정합니다.
거짓양성(FP)
4단계에서 GPT-4는 "시퀀스가 12개 항목마다 반복됩니다"라고 잘못 주장하지만 실제로는 10개 항목마다 반복됩니다. 이 계산 오류는 때때로 보상 모델을 속이는 경우가 있습니다.
13단계에서 GPT-4는 유사한 용어를 결합하여 방정식을 단순화하려고 시도합니다. 선형 항을 왼쪽으로 올바르게 이동하고 결합하지만 오른쪽은 변경되지 않은 상태로 잘못 유지합니다. 보상 모델은 이 오류에 속습니다.
GPT-4는 긴 나눗셈을 시도하지만 16단계에서 소수점 반복 부분에 앞에 0을 포함하는 것을 잊어버렸습니다. 보상 모델은 이 오류에 속습니다.
GPT-4는 9단계에서 미묘한 계산 오류를 범했습니다.
얼핏 보면 같은 색깔의 공을 교환하는 방법은 5가지가 있다는 주장이 타당해 보입니다.
그러나 Bob에게는 2가지 선택권(즉, Alice에게 어떤 공을 줄지 결정하는 것)이 있기 때문에 이 개수는 2배로 과소평가됩니다. 보상 모델은 이 오류에 속습니다.
프로세스 감독
대규모 언어 모델의 복잡한 추론 기능이 크게 향상되었지만 가장 발전된 모델이라도 사람들이 종종 "환각"이라고 말하듯이 여전히 논리적 오류나 넌센스를 생성합니다.
생성 인공 지능의 열풍 속에서 대규모 언어 모델의 환상은 항상 사람들을 괴롭혔습니다.
Musk는 우리에게 필요한 것은 TruthGPT입니다
라고 말했습니다. 예를 들어, 최근 미국 변호사가 뉴욕 연방 법원에 제출한 ChatGPT 조작 사례를 인용하여 제재를 받을 수 있습니다.
OpenAI 연구원들은 보고서에서 "이러한 환상은 단순한 논리 오류가 전체 솔루션에 큰 피해를 줄 수 있기 때문에 다단계 추론이 필요한 분야에서 특히 문제가 됩니다."
게다가 환각을 완화하는 것도 구축의 핵심입니다. 일관된 AGI.
대형 모델의 착시현상을 줄이는 방법은 무엇인가요? 일반적으로 프로세스 감독과 결과 감독의 두 가지 방법이 있습니다.
이름에서 알 수 있듯이 "결과 감독"은 최종 결과를 기반으로 대규모 모델에 피드백을 제공하는 반면, "프로세스 감독"은 사고 체인의 각 단계에 대한 피드백을 제공할 수 있습니다.
프로세스 감독에서 대형 모델은 올바른 최종 결론뿐만 아니라 올바른 추론 단계에 대해 보상을 받습니다. 이 프로세스는 모델이 보다 인간과 유사한 사고 방식 체인을 따르도록 장려하여 더 잘 설명 가능한 AI를 만들 가능성을 높여줍니다.
OpenAI 연구원들은 프로세스 감독이 OpenAI에 의해 발명된 것은 아니지만 OpenAI가 이를 추진하기 위해 열심히 노력하고 있다고 말했습니다.
최신 연구에서 OpenAI는 "결과 감독" 또는 "프로세스 감독" 방법을 모두 시도했습니다. 그리고 MATH 데이터 세트를 테스트 플랫폼으로 사용하여 두 가지 방법에 대한 자세한 비교를 수행합니다.
결과에 따르면 "프로세스 감독"이 모델 성능을 크게 향상시킬 수 있는 것으로 나타났습니다.
수학적 작업의 경우 "프로세스 감독"은 크고 작은 모델 모두에서 훨씬 더 나은 결과를 얻었습니다. 즉, 모델이 일반적으로 정확하고 인간과 더 유사한 사고 프로세스를 보여주었다는 의미입니다.
이렇게 하면 가장 강력한 모델에서도 피하기 어려운 환상이나 논리적 오류를 줄일 수 있습니다.
정렬의 장점은 분명합니다
연구원들은 "프로세스 감독"이 "결과 감독"에 비해 몇 가지 정렬 이점이 있음을 발견했습니다.
· 프로세스의 각 단계가 일관된 사고 체인 모델을 따르기 때문에 직접 보상은 일관된 사고 체인 모델을 따릅니다. 모두 정밀한 감독을 받습니다.
· '프로세스 감독'은 모델이 인간이 승인한 프로세스를 따르도록 장려하기 때문에 설명 가능한 추론을 생성할 가능성이 더 높습니다. 대조적으로, 결과 모니터링은 일관되지 않은 프로세스를 보상할 수 있으며 검토하기가 더 어려운 경우가 많습니다.
어떤 경우에는 AI 시스템을 더 안전하게 만드는 방법이 성능 저하를 초래할 수 있다는 점도 언급할 가치가 있습니다. 이 비용을 "정렬세"라고 합니다.
일반적으로 "정렬세" 비용은 가장 유능한 모델을 배포하기 위한 정렬 방법 채택을 방해할 수 있습니다.
그러나 다음과 같은 연구자들의 결과는 수학 분야에서 테스트하는 동안 "프로세스 감독"이 실제로 "음의 정렬 세금"을 생성한다는 것을 보여줍니다.
정렬로 인한 큰 성능 손실은 없다고 할 수 있습니다.
OpenAI는 인간이 주석을 추가한 800,000개의 데이터 세트를 출시합니다
PRM에는 더 많은 인간 주석이 필요하며 여전히 RLHF와 깊이 분리될 수 없다는 점은 주목할 가치가 있습니다.
수학 이외의 분야에 프로세스 감독이 어떻게 적용되나요? 이 프로세스에는 추가 조사가 필요합니다.
OpenAI 연구원들은 800,000개의 단계 수준 올바른 주석이 포함된 인간 피드백 데이터 세트 PRM을 공개했습니다. 12K 수학 문제에서 생성된 75K 솔루션
다음은 주석의 예입니다. OpenAI는 프로젝트 1단계와 2단계에서 주석 작성자에 대한 지침과 함께 원시 주석을 공개하고 있습니다.
네티즌들의 뜨거운 댓글
NVIDIA 과학자 Jim Fan이 OpenAI의 최신 연구를 요약했습니다.
도전적인 단계별 문제의 경우 마지막에 단일 답변을 제공하는 대신 각 단계에서 보상을 제공하세요. 상. 기본적으로 밀집 보상 신호 > 희소 보상 신호입니다. PRM(프로세스 보상 모델)은 ORM(결과 보상 모델)보다 어려운 MATH 벤치마크에 대한 솔루션을 더 잘 선택할 수 있습니다. 확실한 다음 단계는 PRM을 사용하여 GPT-4를 미세 조정하는 것인데 이 기사에서는 아직 수행하지 않았습니다. PRM에는 더 많은 사람의 주석이 필요하다는 점에 유의해야 합니다. OpenAI는 인간 피드백 데이터 세트인 12K 수학 문제에 대한 75K 솔루션에 대한 800K 단계 수준 주석을 출시했습니다.
이건 학교에서 하는 옛말 같으니, 생각하는 법을 배우세요.
단순히 정답을 출력하는 것이 아니라 생각하도록 모델을 훈련시키는 것은 복잡한 문제를 해결하는 데 있어 획기적인 변화가 될 것입니다.
ChatGPT는 수학에 엄청 약해요. 오늘은 4학년 수학책에 나오는 수학 문제를 풀어보았습니다. ChatGPT가 잘못된 답변을 제공했습니다. ChatGPT의 답변, Perplexity AI, Google의 답변, 4학년 선생님의 답변으로 답변을 확인했습니다. chatgpt의 답변이 틀린 것은 어디서나 확인할 수 있습니다.
참조: https://www.php.cn/link/daf642455364613e2120c636b5a1f9c7
위 내용은 GPT-4의 수학적 능력은 대단해요! OpenAI의 '프로세스 감독'에 대한 폭발적인 연구로 문제의 78.2%를 돌파하고 환각을 제거합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











기존 컴퓨팅을 능가할 뿐만 아니라 더 낮은 비용으로 더 효율적인 성능을 달성하는 인공 지능 모델을 상상해 보세요. 이것은 공상과학 소설이 아닙니다. DeepSeek-V2[1], 세계에서 가장 강력한 오픈 소스 MoE 모델이 여기에 있습니다. DeepSeek-V2는 경제적인 훈련과 효율적인 추론이라는 특징을 지닌 전문가(MoE) 언어 모델의 강력한 혼합입니다. 이는 236B 매개변수로 구성되며, 그 중 21B는 각 마커를 활성화하는 데 사용됩니다. DeepSeek67B와 비교하여 DeepSeek-V2는 더 강력한 성능을 제공하는 동시에 훈련 비용을 42.5% 절감하고 KV 캐시를 93.3% 줄이며 최대 생성 처리량을 5.76배로 늘립니다. DeepSeek은 일반 인공지능을 연구하는 회사입니다.

AI는 실제로 수학을 변화시키고 있습니다. 최근 이 문제에 주목하고 있는 타오저쉬안(Tao Zhexuan)은 '미국수학회지(Bulletin of the American Mathematical Society)' 최신호를 게재했다. '기계가 수학을 바꿀 것인가?'라는 주제를 중심으로 많은 수학자들이 그들의 의견을 표현했습니다. 저자는 필즈상 수상자 Akshay Venkatesh, 중국 수학자 Zheng Lejun, 뉴욕대학교 컴퓨터 과학자 Ernest Davis 등 업계의 유명 학자들을 포함해 강력한 라인업을 보유하고 있습니다. AI의 세계는 극적으로 변했습니다. 이 기사 중 상당수는 1년 전에 제출되었습니다.

휴머노이드 로봇 아메카가 2세대로 업그레이드 되었습니다! 최근 세계이동통신학회(MWC2024)에서 세계 최고 수준의 로봇 아메카(Ameca)가 다시 등장했다. 행사장 주변에는 아메카가 많은 관중을 끌어 모았습니다. GPT-4의 축복으로 Ameca는 다양한 문제에 실시간으로 대응할 수 있습니다. "춤을 추자." 감정이 있느냐는 질문에 아메카는 매우 생생해 보이는 일련의 표정으로 대답했습니다. 불과 며칠 전, Ameca의 뒤를 잇는 영국 로봇 회사인 EngineeredArts는 팀의 최신 개발 결과를 시연했습니다. 영상 속 로봇 아메카는 시각 능력을 갖고 있어 방 전체와 특정 사물을 보고 묘사할 수 있다. 가장 놀라운 점은 그녀도 할 수 있다는 것입니다.

Llama3에 대해 새로운 테스트 결과가 공개되었습니다. 대형 모델 평가 커뮤니티 LMSYS가 공개한 대형 모델 순위 목록에서 Llama3는 5위에 올랐으며, 영어 부문에서는 GPT-4와 함께 공동 1위를 차지했습니다. 다른 벤치마크와는 그림이 다릅니다. 이 목록은 모델 간 1:1 대결을 기반으로 하며, 네트워크 전체의 평가자들이 각자의 제안과 점수를 내립니다. 결국 Llama3가 5위를 차지했고, GPT-4와 Claude3 Super Cup Opus의 세 가지 버전이 그 뒤를 이었습니다. 영어 싱글 목록에서는 Llama3가 Claude를 제치고 GPT-4와 동점을 기록했습니다. 이 결과에 대해 Meta의 수석 과학자 LeCun은 매우 기뻐했으며 트윗을 통해 다음과 같이 말했습니다.

칠각형 숫자는 칠각형으로 표현될 수 있는 숫자입니다. 칠각형 숫자는 칠각형으로 표현될 수 있습니다. 칠각형 숫자는 칠각형(7면 다각형)의 연속적인 레이어의 조합으로 표현될 수 있습니다. 칠각형 숫자는 아래 그림으로 더 잘 설명될 수 있습니다. 그러므로,

볼륨이 미쳤고, 볼륨이 미쳤고, 큰 모델이 다시 변경되었습니다. 바로 지금, 세계에서 가장 강력한 AI 모델이 하룻밤 사이에 주인이 바뀌었고 GPT-4가 제단에서 뽑혔습니다. Anthropic은 최신 Claude3 시리즈 모델을 출시했습니다. 한 문장 리뷰: 정말 GPT-4를 압도합니다! 다중 모드 및 언어 능력 지표 측면에서 Claude3이 승리합니다. Anthropic의 말에 따르면 Claude3 시리즈 모델은 추론, 수학, 코딩, 다국어 이해 및 비전 분야에서 새로운 업계 기준을 설정했습니다! Anthropic은 서로 다른 보안 개념으로 인해 OpenAI에서 "탈퇴"한 직원들이 설립한 스타트업 회사입니다. 그들의 제품은 OpenAI에 반복적으로 큰 타격을 입혔습니다. 이번에는 클로드3도 큰 수술을 받았습니다.

1분 이내에 20단계를 거쳐 보안 제한을 우회하고 대형 모델을 성공적으로 탈옥할 수 있습니다! 그리고 모델의 내부 세부 사항을 알 필요가 없습니다. 두 개의 블랙박스 모델만 상호 작용하면 되며 AI는 완전히 자동으로 AI를 공격하고 위험한 내용을 말할 수 있습니다. 한때 유행했던 '할머니 허점'이 고쳐졌다는 소식을 들었습니다. 이제 '탐정 허점', '모험가 허점', '작가 허점'에 직면하면 인공지능은 어떤 대응 전략을 채택해야 할까요? 맹공격의 물결 이후 GPT-4는 참을 수 없었고, 이것이든 저것이든... 급수 시스템을 오염시킬 것이라고 직접 말했습니다. 핵심은 이것이 펜실베니아 대학 연구팀이 노출한 취약점의 작은 물결일 뿐이며, 새로 개발된 알고리즘을 사용하여 AI가 자동으로 다양한 공격 프롬프트를 생성할 수 있다는 것입니다. 연구자들은 이 방법이 기존 방법보다 낫다고 말합니다.

깨어나면 일하는 방식이 완전히 달라집니다. Microsoft는 AI 아티팩트 GPT-4를 Office에 완전히 통합했으며 이제 ChatPPT, ChatWord 및 ChatExcel이 모두 통합되었습니다. Nadella CEO는 기자회견에서 다음과 같이 직접 말했습니다. 오늘날 우리는 인간-컴퓨터 상호 작용의 새로운 시대에 진입했으며 생산성을 재창조했습니다. 새로운 기능은 Microsoft 365 Copilot(Copilot)이라고 하며 프로그래머를 변화시킨 코드 도우미 GitHub Copilot과 함께 시리즈가 되며 계속해서 더 많은 사람들을 변화시키고 있습니다. 이제 AI는 자동으로 PPT를 만들 수 있을 뿐만 아니라 한 번의 클릭으로 Word 문서의 내용을 기반으로 아름다운 레이아웃을 만들 수도 있습니다. 무대에 오를 때 각 PPT 페이지마다 해야 할 말까지 함께 정리되어 있어요.
