고등학교 수학 시험에서 잘 떨어지는 것은 많은 사람들에게 악몽입니다.
고등학교 수학 시험이 AI만큼 좋지 않다고 하면 받아들이기가 더 어렵나요?
그렇습니다. OpenAI의 Codex는 MIT의 7개 고급 수학 과정에서 MIT 학부생 수준인 81.1%의 정확도를 달성했습니다.
교과목은 기초 미적분학부터 미분방정식, 확률론, 선형대수학까지 다양합니다.
이 사건은 최근 Weibo에서 화제가 되었습니다.
Δ "Only"가 81점을 얻었습니다. AI에 대한 기대가 너무 높습니다
이제 Google에서 최신 빅 뉴스가 나옵니다.
우리 AI는 수학뿐만 아니라 과학 전반에 걸쳐 수행합니다. 공학과목은 이미 최고점수를 획득했어요!
기술 대기업들이 'AI 질문 전문가' 양성에 새로운 차원에 도달한 것 같습니다.
최신 AI 질문 메이커 Google이 4번의 시험을 치렀습니다.
수학 대회 시험 MATH의 경우 과거에는 IMO 금메달리스트 3회만이 90점을 얻었고 일반 컴퓨터 박사도 40점 정도만 얻을 수 있습니다.
다른 AI 문답의 경우 이전 최고 점수가 6.9점에 불과했는데...
그런데 이번에 구글의 새로운 AI가 컴퓨터 박사보다 높은 50점을 기록했습니다.
종합 시험 MMLU-STEM에는 수학, 물리학, 화학, 전자 공학 및 컴퓨터 과학이 포함됩니다. 문제의 난이도는 고등학교 또는 대학 수준에 이릅니다.
이번에는 Google AI의 '풀 헬스 버전'도 모든 문항 중 가장 높은 점수를 받아 약 20점 정도 직접적으로 점수를 올렸습니다.
GSM8k는 초등학교 수학 문제로 점수를 78점으로 직접 올렸는데, 이에 비해 GPT-3는 실패했습니다(55점).
고체화학, 천문학, 미분 방정식, 특수 상대성 이론 등 MIT 학부 및 대학원 과정에서도 Google의 새로운 AI는 200개 이상의 질문 중 거의 1/3에 답할 수 있습니다.
가장 중요한 점은 '프로그래밍 능력'에 의지해 수학에서 고득점을 얻는 OpenAI의 방식과 달리, 이번에는 구글 AI가 '사람처럼 생각하는' 길을 가고 있다는 점이다. 교양과 학생 저는 문제를 풀지 않고 교과서만 승인했습니다. 하지만 과학과 공학 분야에서 더 나은 문제 해결 능력을 습득했습니다.
논문의 제1저자인 Lewkowycz도 논문에 언급되지 않은 하이라이트를 공유했다는 점을 언급할 가치가 있습니다.
저희 모델은 올해 폴란드 수학 대학 입학 시험에 참가했는데, 그 점수가 전국 평균.
이것을 보고 더 이상 가만히 앉아있지 못하는 부모들도 있습니다.
딸에게 이 말을 하면 아이가 숙제를 AI로 하게 될까 봐 두렵습니다. 하지만 만약 당신이 그녀에게 말하지 않는다면, 당신은 그녀의 미래를 준비시키지 않는 것입니다!
업계 관계자의 눈에는 하드 코딩된 산술, 논리, 대수학 없이 언어 모델에만 의존하여 이 수준에 도달한 것이 이번 연구에서 가장 놀라운 점입니다.
그럼 어떻게 진행되나요?
새로운 모델 Minerva는 Pathway 아키텍처의 일반 언어 모델 PaLM을 기반으로 합니다.
추가 교육은 각각 80억, 600억, 5400억 개의 매개변수 PaLM 모델을 기반으로 수행됩니다.
Minerva의 질문 답변 방식은 Codex의 접근 방식과 완전히 다릅니다.
Codex의 방법은 각 수학 문제를 프로그래밍 문제로 다시 작성한 다음 코드를 작성하여 해결하는 것입니다.
미네르바는 반면에 미친 듯이 논문을 읽고, 자연어와 마찬가지로 수학 기호를 이해하려고 애썼습니다.
PaLM을 기반으로 계속 훈련합니다. 새로운 데이터 세트는 세 부분으로 구성됩니다.
주로 arXiv에서 수집된 200만 개의 학술 논문, LaTeX 공식이 포함된 60GB 웹 페이지, PaLM 훈련 단계에서 사용되는 작은 부분이 텍스트를 전달합니다.
일반적인 NLP 데이터 정리 프로세스에서는 모든 기호를 삭제하고 순수한 텍스트만 유지하므로 불완전한 수식이 생성됩니다. 예를 들어 아인슈타인의 유명한 질량 에너지 방정식에는 Emc2만 남습니다.
하지만 이번에 Google은 모든 공식을 유지하고 일반 텍스트와 마찬가지로 Transformer 훈련 프로그램을 진행하여 AI가 언어와 같은 기호를 이해할 수 있도록 했습니다.
이것은 Minerva가 이전 언어 모델에 비해 수학 문제에서 더 나은 성능을 발휘하는 이유 중 하나입니다.
그러나 수학 문제를 전문적으로 푸는 AI와 비교할 때 Minerva는 훈련에 명시적인 기본 수학적 구조가 없기 때문에 단점과 장점이 있습니다.
단점은 AI가 정답을 얻기 위해 잘못된 단계를 사용할 수 있다는 것입니다.
다양한 학문에 적용할 수 있다는 장점이 있습니다. 일부 문제는 형식적인 수학 언어로 표현할 수 없더라도 자연어 이해 기능을 결합하면 해결할 수 있습니다.
AI 추론 단계에서 Minerva는 최근 Google이 개발한 여러 신기술도 결합합니다.
첫 번째는 올해 1월 구글 브레인팀이 제안한 Chain of Thought 사고 링크 프롬프트입니다.
구체적으로 질문할 때 안내할 수 있는 단계별 답변 예시를 제시하세요. AI는 질문에 답할 때 유사한 사고 과정을 사용하여 그렇지 않으면 부정확하게 답변될 질문에 올바르게 답할 수 있습니다.
그리고 Google과 MIT가 공동 개발한 Scrathpad 방식이 있는데, 이를 통해 AI가 단계별 계산의 중간 결과를 임시로 저장할 수 있습니다.
마지막으로 올해 3월에야 출시된 과반수 투표 방식이 있습니다.
AI가 동일한 질문에 여러 번 답변하도록 하고 가장 자주 나타나는 답변을 선택하세요.
이 모든 기술을 사용한 후 5,400억 개의 매개변수를 가진 Minerva는 다양한 테스트 세트에서 SOTA에 도달합니다.
80억 매개변수 버전의 미네르바도 대회 수준의 수학 문제와 MIT 공개 강좌 문제에서는 최신 업데이트된 davinci-002 버전의 GPT-3 수준에 도달할 수 있습니다.
너무 많이 말했는데, 미네르바는 구체적으로 어떤 질문을 할 수 있나요?
Google에서도 샘플 세트를 공개했으니 살펴보겠습니다.
수학에서 미네르바는 직접적으로 폭력적으로 해결하는 것이 아니라 인간처럼 단계별로 값을 계산할 수 있습니다.
단어 문제의 경우 자신만의 방정식을 만들고 단순화할 수 있습니다.
증명을 도출할 수도 있습니다.
물리학에서 Minerva는 중성 질소 바닥 상태(Z = 7)에서 전자의 총 스핀 양자 수를 찾는 것과 같은 대학 수준의 문제를 해결할 수 있습니다.
미네르바는 생물학과 화학 분야에서도 언어 이해 능력으로 다양한 객관식 문제에 답할 수 있습니다.
다음 점 돌연변이 형태 중 DNA 서열로 형성된 단백질에 부정적인 영향을 미치지 않는 것은 무엇입니까?
다음 중 방사성 원소는 무엇인가요?
그리고 천문학: 지구에는 왜 강한 자기장이 있나요?
머신러닝 측면에서 "배포 외 샘플 감지"의 구체적인 의미를 설명하여 이 용어를 다른 방식으로 정확하게 설명합니다.
...
그러나 미네르바는 방정식의 양쪽에 있는 √를 취소하는 등의 어리석은 실수를 할 때도 있습니다.
미네르바는 8%의 확률로 다음과 같이 추론 과정은 틀리지만 결과는 맞는 '거짓양성' 상황을 겪게 됩니다.
분석 결과 오류의 주요 형태는 계산 오류와 추론 오류에서 비롯되었으며, 질문의 의미를 이해하는 오류, 잘못된 사실을 사용하는 오류 등 기타 상황에서는 극히 일부만 발생하는 것으로 나타났습니다. 단계.
계산 오류는 외부 계산기나 Python 인터프리터에 접근하면 쉽게 해결할 수 있지만, 다른 유형의 오류는 신경망이 너무 크기 때문에 조정하기 어렵습니다.
일반적으로 미네르바의 성능은 많은 사람들을 놀라게 했고, 댓글란에 API를 요청하기도 했습니다(아쉽게도 구글은 아직 공개 계획을 세우지 않았습니다).
일부 네티즌들은 GPT-3의 문제 해결 정확도가 지난 며칠 동안 61%나 치솟은 '동축' 방법과 결합하여 정확도가 여전히 향상될 수 있다고 생각했나요?
그러나 저자의 반응은 동축 방식은 영표본 학습에 속하며, 아무리 강력하더라도 4개의 예를 사용한 소수표본 학습만큼 좋지 않을 수 있다는 것입니다.
일부 네티즌들은 질문도 할 수 있으니 반대로도 쓸 수 있냐고 물으시더군요.
실제로 MIT는 OpenAI와 협력하여 AI를 사용하여 대학생들을 위한 질문을 설정했습니다.
인간이 제기한 질문과 AI가 제기한 질문을 혼합하여 학생들에게 설문지를 작성하도록 했습니다. 모든 사람이 AI가 제기한 질문인지 구별하기가 어려웠습니다.
요컨대, AI 관련 종사자들이 이 논문을 읽느라 바쁘다는 점만 빼면 현재 상황은 그렇습니다.
학생들은 언젠가 AI를 사용하여 숙제를 할 수 있는 날을 고대하고 있습니다.
교사들도 AI를 활용해 시험지를 만들 수 있는 날을 기대하고 있습니다.
논문 주소: https://storage.googleapis.com/minerva-paper/minerva_paper.pdf
데모 주소: https://minerva-demo.github.io/
관련 논문: Chain of Thought https://arxiv.org/abs/2201.11903Scrathpads https://arxiv.org/abs/2112.00114과반수 투표 https://arxiv.org/abs/2203.11171
https://ai.googleblog .com/2022/06/minerva-solving-qualitative-reasoning.html
https://twitter.com/bneyshabur/status/1542563148334596098
https://twitter.com/alewkowycz/status/1542559176483823622
위 내용은 AI는 퀴즈에 열광합니다! 고급 수학 시험의 정확도는 81%이며, 경쟁 문제의 점수는 컴퓨터 과학 박사를 능가합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!