MIT, '고급 수학' 솔버의 향상된 버전 출시: 7개 과정에서 정확도가 81%에 도달
초등 수학 단어 문제뿐만 아니라, 고급 수학도 AI가 정복하기 시작했습니다!
최근 MIT 연구진은 OpenAI Codex 사전 학습 모델을 기반으로 퓨샷 학습을 통해 학부 수준의 수학 문제에서 81%의 정확도를 달성했다고 발표했습니다!
- 페이퍼 링크: https://arxiv.org/abs/2112.15594
- 코드 링크: https://github.com/idrori/mathq
몇 가지 작은 질문에 대한 답변을 살펴보겠습니다. 단일 변수 함수의 그래프를 축을 중심으로 회전시켜 생성된 부피 계산, 로렌츠 어트랙터 및 투영 계산, 특이값 분해(SVD)의 기하학적 형태 계산 및 묘사와 같은 질문을 먼저 해야 올바르게 답할 수 있을 뿐만 아니라 , 그러나 해당 설명을 제공할 수도 있습니다!
정말 믿기지 않습니다. 과거를 돌이켜보면 높은 점수는 모두 지나갔습니다. 이제 AI가 한방에 81점을 얻을 수 있게 되었다고 일방적으로 선언합니다.
더 놀라운 점은 일반적인 머신러닝 모델로는 해결하기 어려운 문제를 해결하는 것 외에도 이 기술이 대규모로 홍보될 수 있고 해당 강좌 및 유사한 강좌에서 문제를 해결할 수 있다는 사실을 이번 연구를 통해 보여줍니다.
단일 머신러닝 모델이 이렇게 대규모 수학 문제를 해결할 수 있을 뿐만 아니라, 설명하고 그림을 그리며 새로운 질문을 생성할 수도 있는 것은 역사상 최초이기도 합니다!
사실 이 논문은 개정된 지 반년 만에 114페이지에서 181페이지로 늘어났습니다. 부록에는 A부터 Z까지 번호가 매겨져 있습니다. .
이 기사에는 MIT, 컬럼비아 대학교, 하버드 대학교, 워털루 대학교 등 4개의 주요 저자 단위가 있습니다.
제1저자 Iddo Drori는 MIT 전기공학 및 컴퓨터과학과 AI학과 강사이자 컬럼비아대학교 공학 및 응용과학대학 겸임 부교수입니다. CCAI NeurIPS 2021 최우수 논문상을 수상했습니다.
그의 주요 연구 방향은 기계가 대학 수준의 수학을 해결하고 설명하고 생성하도록 하는 교육용 기계 학습과 극심한 기후 변화를 기반으로 예측하고 모니터링하는 기후 과학을 위한 STEM 기계 학습입니다. 수천 년의 기후 데이터를 기반으로 대서양의 해양 생지화학의 다년간의 변화를 예측하기 위한 다학제적 작업 통합, 자율 주행을 위한 기계 학습 알고리즘 등
그는 Cambridge University Press에서 출판한 The Science of Deep Learning의 저자이기도 합니다.
고등 교육의 이정표
이 논문 이전에 대부분의 연구자들은 신경망이 숫자가 큰 문제를 처리할 수 없으며 몇 가지 간단한 수학적 문제만 해결할 수 있다고 믿었습니다.
Transformer 모델이 다양한 NLP 작업에서 인간의 성능을 능가하더라도 수학적 문제를 해결하는 데는 여전히 나쁘지 않습니다. 주된 이유는 GPT-3와 같은 다양한 대형 모델이 텍스트 데이터로만 사전 훈련되기 때문입니다.
나중에 일부 연구자들은 언어 모델이 여전히 단계별 분석(생각의 사슬)을 통해 몇 가지 간단한 수학적 질문을 추론하고 대답할 수 있지만 고급 수학 문제는 해결하기가 쉽지 않다는 것을 발견했습니다.
목표가 숫자가 높은 문제인 경우 먼저 일련의 훈련 데이터를 수집해야 합니다.
저자는 다음을 포함하여 MIT의 7개 과정 각각에서 25개의 질문을 무작위로 선택했습니다.
- 18.01 단일 변수 미적분
- 18.02 다변수 미적분
- 18.03 미분 방정식
- 18.05 확률 및 통계 소개
- 18.06 선형 대수 브라
- 6.042 컴퓨터 과학 수학
- COMS3251 컬럼비아 대학의 전산 선형 대수
MATH 데이터 세트의 경우 연구원들은 데이터 세트의 6가지 주제(대수학, 계산 및 확률, 중급 대수학, 정수론, 예비 대수학)의 데이터를 연구했습니다. ) 대수학 및 예비 대학에서 무작위로 선택된 15개의 질문).
모델에서 생성된 결과가 훈련 데이터에 과적합되지 않는지 검증하기 위해 연구진은 생성된 결과를 검증하기 위해 인터넷에 공개되지 않은 COMS3251 과정을 선택했습니다.
Workflow
모델은 강좌 질문을 입력으로 받은 다음, 이에 대한 맥락을 바탕으로 자동 확대를 수행하고, 합성된 프로그램을 생성하고, 최종적으로 답변과 생성된 설명을 출력합니다.
질문에 따라 출력 결과가 다를 수 있습니다. 예를 들어 18.01에 대한 답은 방정식이고, 18.02에 대한 답은 부울 값이고, 18.03과 18.06에 대한 답은 그래프 또는 벡터이고, 18.05에 대한 답은 다를 수 있습니다. 숫자 값입니다.
질문을 받으면 첫 번째 단계는 모델이 질문과 관련된 맥락을 찾도록 하는 것입니다. 연구진은 주로 Codex에서 생성된 Python 프로그램에 중점을 두었기 때문에 질문 앞에 "프로그램 작성"이라는 텍스트를 추가하고 해당 텍스트를 Python 프로그램의 따옴표 세 개 안에 배치하여 프로그램에서 독스트링인 것처럼 가장했습니다.
프로그램을 생성한 후 가져올 라이브러리를 지정하려면 Codex 프롬프트가 필요합니다. 저자는 문제를 해결하기 위해 합성된 프로그램이 이 패키지를 사용해야 함을 지정하여 질문 앞에 "use Sympy" 문자열을 추가하기로 결정했습니다.
각 강좌에서 사용하는 Python 프로그래밍 패키지 수를 세어보면 모든 강좌에서 NumPy와 Sympy를 사용하고 있음을 알 수 있습니다. Matplotlib은 플로팅이 필요한 문제가 있는 강좌에만 사용됩니다. 강좌의 약 절반이 수학, 무작위 및 SciPy를 사용합니다. 실제 작업 과정에서 연구진은 SymPy나 도면 관련 패키지만 가져오도록 지정했고, 가져온 다른 패키지는 자동으로 합성했다.
제로샷 학습을 활용하면, 즉 원래 문제에 대한 자동 향상만을 사용하면 문제의 71%가 자동으로 해결될 수 있습니다.
문제를 해결할 수 없는 경우 연구자들은 이러한 문제를 해결하기 위해 퓨샷 학습을 사용하려고 합니다.
먼저 OpenAI의 text-similarity-babbag-001 임베딩 엔진을 사용하여 모든 문제의 2048차원 임베딩을 얻은 다음 모든 벡터에 대해 코사인 유사성 계산을 사용하여 해결된 문제와 가장 유사한 미해결 문제를 찾습니다. 마지막으로 가장 유사한 문제와 해당 코드가 새로운 문제의 몇 가지 예시로 사용됩니다.
생성된 코드가 정답을 출력하지 않는 경우 다음 유사한 해결 문제를 사용할 때마다 또 다른 해결 질문-코드 쌍을 추가하세요.
실제로는 Few-Shot 학습에 최대 5개의 예제를 사용하는 것이 가장 좋은 효과를 볼 수 있으며, 자동으로 풀 수 있는 문제의 총 개수는 Zero-Shot 학습의 71%에서 81%로 증가합니다. -샷 학습.
나머지 19%의 문제를 해결하려면 인간 편집자가 개입해야 합니다.
연구원들은 먼저 모든 질문을 수집한 결과 대부분이 영화 캐릭터에 대한 언급이나 시사 문제 등 모호하거나 중복된 정보를 포함하고 있음을 발견했습니다. 질문의 본질을 추출하려면 질문을 정리해야 했습니다.
질문 정렬에는 주로 중복된 정보를 제거하고, 긴 문장 구조를 더 작은 구성 요소로 나누고, 프롬프트를 프로그래밍 형식으로 변환하는 작업이 포함됩니다.
수동 개입이 필요한 또 다른 상황은 질문에 대한 답변을 설명하기 위해 여러 단계의 그리기가 필요하다는 것입니다. 즉, 원하는 시각화 효과가 달성될 때까지 Codex를 대화형으로 프롬프트해야 합니다.
모델은 답변을 생성하는 것 외에도 "위의 코드가 수행하는 작업은 다음과 같습니다. 1"이라는 프롬프트 단어를 사용하여 모델을 생성할 수 있어야 합니다. 단계별 설명 결과.
질문에 답한 후 다음 단계는 Codex를 사용하여 각 코스에 대한 새로운 질문을 생성하는 것입니다.
연구원들은 각 수업에서 학생들이 작성한 질문 목록을 무작위로 작성한 후 잘라냈고, 그 결과는 Codex가 다음 질문을 생성하는 데 사용되었습니다.
이 과정은 각 코스마다 새로운 질문이 충분히 생성될 때까지 반복됩니다.
생성된 질문을 평가하기 위해 연구자들은 이러한 과정이나 그에 상응하는 과정을 수강한 MIT 학생들을 대상으로 설문조사를 실시하여 기계 생성 질문의 품질과 난이도를 원래 과정과 비교했습니다.
학생 설문조사 결과에서 다음을 확인할 수 있습니다.
- 기계 채점의 품질은 이미 인간 질문의 품질과 비슷합니다.
- 난이도 측면에서는 인간 질문이 코스 질문에 더 적합한 반면 기계 생성 결과는 약간 더 어렵습니다. 학생들은 인간에게 가장 가까운 질문이 18.01 과정
https://www.reddit.com/r/artificial/comments/v8liqh/researchers_built_a_neural_network_that_not_only임을 확인할 수 있습니다. /
위 내용은 MIT, '고급 수학' 솔버의 향상된 버전 출시: 7개 과정에서 정확도가 81%에 도달의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

2023년에는 AI 기술이 화두가 되면서 다양한 산업, 특히 프로그래밍 분야에 큰 영향을 미치고 있다. 사람들은 AI 기술의 중요성을 점점 더 인식하고 있으며 Spring 커뮤니티도 예외는 아닙니다. GenAI(일반 인공 지능) 기술이 지속적으로 발전함에 따라 AI 기능을 갖춘 애플리케이션 생성을 단순화하는 것이 중요하고 시급해졌습니다. 이러한 배경에서 AI 기능 애플리케이션 개발 프로세스를 단순화하고 간단하고 직관적이며 불필요한 복잡성을 피하는 것을 목표로 하는 "SpringAI"가 등장했습니다. 'SpringAI'를 통해 개발자는 AI 기능이 포함된 애플리케이션을 더욱 쉽게 구축할 수 있어 사용 및 운영이 더욱 쉬워진다.

OpenAI는 최근 최신 세대 임베딩 모델 embeddingv3의 출시를 발표했습니다. 이는 더 높은 다국어 성능을 갖춘 가장 성능이 뛰어난 임베딩 모델이라고 주장합니다. 이 모델 배치는 더 작은 text-embeddings-3-small과 더 강력하고 더 큰 text-embeddings-3-large의 두 가지 유형으로 나뉩니다. 이러한 모델이 어떻게 설계되고 학습되는지에 대한 정보는 거의 공개되지 않으며 모델은 유료 API를 통해서만 액세스할 수 있습니다. 그렇다면 오픈소스 임베딩 모델이 많이 있습니다. 그러나 이러한 오픈소스 모델은 OpenAI 폐쇄소스 모델과 어떻게 비교됩니까? 이 기사에서는 이러한 새로운 모델의 성능을 오픈 소스 모델과 실증적으로 비교할 것입니다. 데이터를 만들 계획입니다.

AI 모델이 내놓은 답변이 전혀 이해하기 어렵다면 감히 사용해 보시겠습니까? 기계 학습 시스템이 더 중요한 영역에서 사용됨에 따라 우리가 그 결과를 신뢰할 수 있는 이유와 신뢰할 수 없는 경우를 보여주는 것이 점점 더 중요해지고 있습니다. 복잡한 시스템의 출력에 대한 신뢰를 얻는 한 가지 가능한 방법은 시스템이 인간이나 다른 신뢰할 수 있는 시스템이 읽을 수 있는 출력 해석을 생성하도록 요구하는 것입니다. 즉, 가능한 오류가 발생할 수 있는 지점까지 완전히 이해할 수 있습니다. 설립하다. 예를 들어, 사법 시스템에 대한 신뢰를 구축하기 위해 우리는 법원이 자신의 결정을 설명하고 뒷받침하는 명확하고 읽기 쉬운 서면 의견을 제공하도록 요구합니다. 대규모 언어 모델의 경우 유사한 접근 방식을 채택할 수도 있습니다. 그러나 이 접근 방식을 사용할 때는 언어 모델이 다음을 생성하는지 확인하세요.

작성자丨컴파일: TimAnderson丨제작: Noah|51CTO Technology Stack(WeChat ID: blog51cto) Zed 편집기 프로젝트는 아직 출시 전 단계에 있으며 AGPL, GPL 및 Apache 라이선스에 따라 오픈 소스로 제공됩니다. 이 편집기는 고성능과 다양한 AI 지원 옵션을 제공하지만 현재는 Mac 플랫폼에서만 사용할 수 있습니다. Nathan Sobo는 게시물에서 GitHub의 Zed 프로젝트 코드 베이스에서 편집기 부분은 GPL에 따라 라이선스가 부여되고 서버 측 구성 요소는 AGPL에 따라 라이선스가 부여되며 GPUI(GPU Accelerated User) 인터페이스) 부분은 GPL에 따라 라이선스가 부여된다고 설명했습니다. Apache2.0 라이센스. GPUI는 Zed 팀에서 개발한 제품입니다.

Ollama는 Llama2, Mistral, Gemma와 같은 오픈 소스 모델을 로컬에서 쉽게 실행할 수 있는 매우 실용적인 도구입니다. 이번 글에서는 Ollama를 사용하여 텍스트를 벡터화하는 방법을 소개하겠습니다. Ollama를 로컬에 설치하지 않은 경우 이 문서를 읽을 수 있습니다. 이 기사에서는 nomic-embed-text[2] 모델을 사용합니다. 짧은 컨텍스트 및 긴 컨텍스트 작업에서 OpenAI text-embedding-ada-002 및 text-embedding-3-small보다 성능이 뛰어난 텍스트 인코더입니다. o를 성공적으로 설치한 후 nomic-embed-text 서비스를 시작하십시오.

얼마 전 OpenAISOra는 놀라운 비디오 생성 효과로 빠르게 인기를 얻었으며 많은 문학적 비디오 모델들 사이에서 눈에 띄었고 전 세계의 관심의 초점이 되었습니다. Colossal-AI 팀은 2주 전 46% 비용 절감으로 Sora 훈련 추론 재현 프로세스를 출시한 데 이어 세계 최초의 Sora 유사 아키텍처 비디오 생성 모델 "Open-Sora1.0"을 완전 오픈 소스화했습니다. 데이터 처리, 모든 훈련 세부 사항 및 모델 가중치를 포함한 훈련 프로세스를 다루고, 글로벌 AI 애호가들과 협력하여 비디오 제작의 새로운 시대를 촉진합니다. 미리보기로 Colossal-AI 팀이 공개한 'Open-Sora1.0' 모델이 생성한 번화한 도시의 영상을 살펴보겠습니다. 오픈소라1.0

마이크로소프트(MS)와 오픈AI(OpenAI)가 올해 초 휴머노이드 로봇 스타트업에 거액을 투자한 것으로 알려졌다. 이 중 마이크로소프트는 9500만달러, 오픈AI는 500만달러를 투자할 계획이다. 블룸버그에 따르면 회사는 이번 라운드에서 총 5억 달러를 조달할 것으로 예상되며, 자금 조달 전 가치는 19억 달러에 이를 수 있습니다. 무엇이 그들을 끌어들이나요? 먼저 이 회사의 로봇공학 성과를 살펴보자. 이 로봇은 온통 은색과 검은색이며, 외관은 헐리우드 공상 과학 블록버스터에 나오는 로봇의 이미지와 유사합니다. 이제 그는 커피 캡슐을 커피 머신에 넣고 있습니다. 올바르게 배치되지 않으면 아무런 문제 없이 스스로 조정됩니다. 휴먼 리모콘 : 하지만 잠시 후 커피 한 잔을 꺼내서 즐길 수 있습니다. 가족 중 혹시 알아본 사람이 있나요? 네, 이 로봇은 얼마 전에 만들어졌습니다.

갑자기! OpenAI 해고된 사람들, 이유: 정보 유출이 의심됩니다. 그 중 하나는 실종된 수석 과학자 Ilya의 동료이자 Superalignment 팀의 핵심 멤버인 Leopold Aschenbrenner입니다. 다른 사람도 단순하지 않습니다. 그는 LLM 추론 팀의 연구원이자 슈퍼 정렬 팀에서도 근무한 Pavel Izmailov입니다. 두 사람이 유출한 정보가 정확히 무엇인지는 불분명하다. 이 소식이 알려지자 많은 네티즌들은 “매우 충격적이다”라는 반응을 보였다. 얼마 전 아셴브레너의 게시물을 보고 그가 경력에서 상승세를 보이고 있다는 느낌을 받았다. 이런 변화를 예상하지는 못했다. 사진 속 일부 네티즌들은 "OpenAI가 Aschenbrenner를 잃었습니다.
