Google AI가 IMO 수학 올림피아드 은메달을 획득하고 수학적 추론 모델 AlphaProof가 출시되었으며 강화 학습이 다시 시작되었습니다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

Google AI가 IMO 수학 올림피아드 은메달을 획득하고 수학적 추론 모델 AlphaProof가 출시되었으며 강화 학습이 다시 시작되었습니다.

王林

Jul 26, 2024 pm 02:40 PM

이론

AI에게 수학 올림피아드는 더 이상 문제가 되지 않습니다.

목요일, Google DeepMind의 인공 지능은 AI를 사용하여 올해 국제 수학 올림피아드 IMO의 실제 문제를 해결하는 위업을 달성했으며 금메달 획득이 단 한 발 남았습니다.

谷歌AI拿下IMO奥数银牌，数学推理模型AlphaProof面世，强化学习 is so back

지난주에 막 끝난 IMO 대회에서는 대수학, 조합론, 기하학, 수론 등 총 6개의 문제가 출제되었습니다. 구글이 제안한 하이브리드 AI 시스템은 4개 문제를 맞혀 28점을 얻어 은메달 수준에 이르렀다.

이달 초 UCLA 종신 교수인 테렌스 타오(Terence Tao)가 AI Math Olympiad(AIMO Progress Award)를 홍보하여 백만 달러의 상금을 수여했습니다. 의외로 AI 문제 해결 수준이 7월 이전에 이 수준으로 향상되었습니다.

IMO에서 문제를 동시에 해결하고 가장 어려운 문제도 맞히세요

IMO는 1959년부터 매년 개최되는 젊은 수학자들을 위한 가장 오래되고 규모가 크며 권위 있는 대회입니다. 최근 IMO 대회는 머신러닝 분야에서도 거대한 도전으로 널리 인식돼 인공지능 시스템의 고급 수학적 추론 능력을 측정하는 이상적인 벤치마크가 되고 있다.

올해 IMO 대회에서 DeepMind 팀이 공동으로 개발한 AlphaProof와 AlphaGeometry 2가 획기적인 돌파구를 달성했습니다.

그 중 AlphaProof는 형식적인 수학적 추론을 위한 강화 학습 시스템인 반면, AlphaGeometry 2는 DeepMind의 기하학 해결 시스템인 AlphaGeometry를 개선한 버전입니다.

이 획기적인 발전은 과학과 기술의 새로운 영역을 여는 고급 수학적 추론 기능을 갖춘 일반 인공지능(AGI)의 잠재력을 보여줍니다.

그렇다면 DeepMind의 AI 시스템은 어떻게 IMO 대회에 참가하나요?

간단히 말하면, 먼저 이러한 수학적 문제를 AI 시스템이 이해할 수 있도록 공식적인 수학 언어로 수동으로 번역합니다. 공식 대회에서는 인간 참가자들이 2개의 세션(2일)에 걸쳐 답변을 제출하며, 세션당 시간 제한은 4.5시간입니다. 결합된 AlphaProof+AlphaGeometry 2 AI 시스템은 한 가지 문제를 몇 분 만에 해결했지만 다른 문제를 해결하는 데는 3일이 걸렸습니다. 규칙을 엄격히 따르면 DeepMind 시스템이 시간 초과되었습니다. 어떤 사람들은 이것이 많은 무차별 대입 크래킹을 포함할 수 있다고 추측합니다.

谷歌AI拿下IMO奥数银牌，数学推理模型AlphaProof面世，强化学习 is so back

Google은 AlphaProof가 답을 결정하고 정확성을 입증함으로써 두 가지 대수학 문제와 한 정수론 문제를 해결했다고 말했습니다. 여기에는 올해 IMO에서 5명의 참가자만이 해결한 대회에서 가장 어려운 문제가 포함됩니다. 그리고 AlphaGeometry 2는 기하학 문제를 증명합니다.

AI가 제공하는 솔루션: https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/imo-2024-solutions/index.html

IMO 금메달 수상자이자 필즈상 수상자 Timothy Gowers 및 IMO 2회 금메달리스트이자 IMO 2024 문제 선택 위원회 의장인 Joseph Myers 박사는 IMO 채점 규칙에 따라 결합된 시스템이 제공하는 솔루션의 점수를 매겼습니다.

6개 질문은 각각 7점으로 최대 총점은 42점입니다. DeepMind의 시스템은 최종 점수 28점을 받았습니다. 이는 해결한 문제 4개 모두 만점을 받았음을 의미합니다. 이는 은메달 부문에서 가장 높은 점수에 해당합니다. 올해 금메달 기준점은 29점으로, 공식 대회에 참가한 609명의 참가자 중 58명이 금메달을 획득했습니다.

谷歌AI拿下IMO奥数银牌，数学推理模型AlphaProof面世，强化学习 is so back

이 그래프는 IMO 2024에서 인간 경쟁자와 비교하여 Google DeepMind의 인공 지능 시스템의 성능을 보여줍니다. 이 시스템은 42점 만점에 28점을 얻어 대회의 은메달리스트와 동등한 점수를 받았습니다. 게다가 올해 금메달을 획득하려면 29점이면 충분하다.

AlphaProof: 형식적 추론 방법

Google에서 사용하는 하이브리드 AI 시스템에서 AlphaProof는 형식 언어 Lean을 사용하여 수학적 진술을 증명하는 자가 학습 시스템입니다. 사전 훈련된 언어 모델과 AlphaZero 강화 학습 알고리즘을 결합합니다.

그 중에서 형식 언어는 수학적 추론 증명의 정확성을 형식적으로 검증하는 데 중요한 이점을 제공합니다. 지금까지는 사람이 작성한 데이터의 양이 매우 제한적이었기 때문에 머신러닝에서는 이 기능이 제한적으로 사용되었습니다.

반대로 자연어 기반 방법은 더 많은 양의 데이터에 접근할 수 있지만 합리적이지만 부정확해 보이는 중간 추론 단계와 솔루션을 생성합니다.

Google DeepMind는 Gemini 모델을 미세 조정하여 자연어 문제 설명을 공식적인 설명으로 자동 번역함으로써 이 두 가지 상호보완적인 분야 사이에 다리를 놓아 다양한 난이도의 형식 문제로 구성된 대규모 라이브러리를 만듭니다.

수학적 문제가 주어지면 AlphaProof는 후보 솔루션을 생성한 다음 Lean에서 가능한 증명 단계를 검색하여 이를 증명합니다. 발견되고 검증된 각 증명 솔루션은 AlphaProof의 언어 모델을 강화하고 이후의 더욱 어려운 문제를 해결하는 능력을 향상시키는 데 사용됩니다.

为训练 AlphaProof，谷歌 DeepMind 在 IMO 比赛前几周内证明或反证明了涵盖广泛难度与主题的数百万个数学问题。比赛期间还应用了训练 loop，以强化自生成竞赛题变体的证明，直到找到完整的解决方案。

谷歌AI拿下IMO奥数银牌，数学推理模型AlphaProof面世，强化学习 is so back AlphaProof 强化学习训练 loop 过程信息图：约一百万个非形式化数学问题被形式化网络翻译成形式化数学语言。然后，求解器网络搜索问题的证明或反证，通过 AlphaZero 算法逐步训练自己解决更具挑战性的问题。

更具竞争力的 AlphaGeometry 2

AlphaGeometry 2 是今年登上《自然》杂志的数学 AI AlphaGeometry 的重大改进版本。它是一个神经 - 符号混合系统，其中的语言模型基于 Gemini，并在比其前身多一个数量级的合成数据上从头开始训练。这有助于该模型解决更具挑战性的几何问题，包括有关物体运动以及角度、比例或距离方程的问题。

AlphaGeometry 2 采用的符号引擎比上一代产品快两个数量级。当遇到新问题时，新颖的知识共享机制可实现不同搜索树的高级组合，以解决更复杂的问题。

在今年的比赛之前，AlphaGeometry 2 可以解决过去 25 年中所有 IMO 几何历史问题的 83%，而其前身的解决率仅为 53%。在 IMO 2024 中，AlphaGeometry 2 在收到问题 4 的形式化后 19 秒内就解决了它。

谷歌AI拿下IMO奥数银牌，数学推理模型AlphaProof面世，强化学习 is so back

问题 4 的示例，要求证明∠KIL 与∠XPY 的和等于 180°。AlphaGeometry 2 提议在直线 BI 上构造点 E，使得∠AEB = 90°。点 E 有助于赋予线段 AB 中点 L 以意义，从而创建许多对相似三角形，如 ABE ~ YBI 和 ALE ~ IPC，以证明结论。

谷歌 DeepMind 还报告说，作为 IMO 工作的一部分，研究人员还试验了一种基于 Gemini 和一种最新的自然语言推理系统，希望实现高级的问题解决能力。该系统不需要将问题翻译成正式语言，并且可以与其他 AI 系统相结合。在今年的 IMO 赛题的测试中「显示出了巨大的潜力」。

谷歌正在继续探索推进数学推理的 AI 方法，并计划很快发布有关 AlphaProof 的更多技术细节。

我们对未来充满期待，数学家们将使用 AI 工具探索假设，尝试大胆的新方法来解决长期存在的问题，并快速完成耗时的证明元素——而像 Gemini 这样的 AI 系统将在数学和更广泛的推理方面变得更加强大。

研究团队

谷歌表示，新研究得到了国际数学奥林匹克组织的支持，此外：

AlphaProof 的开发由 Thomas Hubert、Rishi Mehta 和 Laurent Sartran 领导；主要贡献者包括 Hussain Masoom、Aja Huang、Miklós Z. Horváth、Tom Zahavy、Vivek Veeriah、Eric Wieser、Jessica Yung、Lei Yu、Yannick Schroecker、Julian Schrittwieser、Ottavia Bertolli、Borja Ibarz、Edward Lockhart、Edward Hughes、Mark Rowland 和 Grace Margand。

谷歌AI拿下IMO奥数银牌，数学推理模型AlphaProof面世，强化学习 is so back

其中，Aja Huang、Julian Schrittwieser、Yannick Schroecker 等成员也是 8 年前（2016 年）AlphaGo 论文的核心成员。8 年前，他们基于强化学习打造的 AlphaGo 声名大噪。8 年后，强化学习在 AlphaProof 中再次大放异彩。有人在朋友圈感叹说：RL is so back！

谷歌AI拿下IMO奥数银牌，数学推理模型AlphaProof面世，强化学习 is so back

AlphaGeometry 2 和自然语言推理工作由 Thang Luong 领导。AlphaGeometry 2 的开发由 Trieu Trinh 和 Yuri Chervonyi 领导，Mirek Olšák、Xiaomeng Yang、Hoang Nguyen、Junehyuk Jung、Dawsen Hwang 和 Marcelo Menegali 做出了重要贡献。

谷歌AI拿下IMO奥数银牌，数学推理模型AlphaProof面世，强化学习 is so back

此外，David Silver、Quoc Le、哈萨比斯和 Pushmeet Kohli 负责协调和管理整个项目。

参考内容：

https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/

위 내용은 Google AI가 IMO 수학 올림피아드 은메달을 획득하고 수학적 추론 모델 AlphaProof가 출시되었으며 강화 학습이 다시 시작되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7499

Cakephp 튜토리얼

1377

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

'Defect Spectrum'은 기존 결함 감지의 경계를 뛰어넘어 초고정밀 및 풍부한 의미론적 산업 결함 감지를 최초로 달성합니다. Jul 26, 2024 pm 05:38 PM

현대 제조업에서 정확한 결함 검출은 제품 품질을 보장하는 열쇠일 뿐만 아니라 생산 효율성을 향상시키는 핵심이기도 합니다. 그러나 기존 결함 감지 데이터세트는 실제 적용에 필요한 정확성과 의미론적 풍부함이 부족한 경우가 많아 모델이 특정 결함 카테고리나 위치를 식별할 수 없게 됩니다. 이 문제를 해결하기 위해 광저우 과학기술대학교와 Simou Technology로 구성된 최고 연구팀은 산업 결함에 대한 상세하고 의미론적으로 풍부한 대규모 주석을 제공하는 "DefectSpectrum" 데이터 세트를 혁신적으로 개발했습니다. 표 1에서 볼 수 있듯이, 다른 산업 데이터 세트와 비교하여 "DefectSpectrum" 데이터 세트는 가장 많은 결함 주석(5438개의 결함 샘플)과 가장 상세한 결함 분류(125개의 결함 카테고리)를 제공합니다.

NVIDIA 대화 모델 ChatQA는 버전 2.0으로 발전했으며 컨텍스트 길이는 128K로 언급되었습니다. Jul 26, 2024 am 08:40 AM

오픈 LLM 커뮤니티는 백개의 꽃이 피어 경쟁하는 시대입니다. Llama-3-70B-Instruct, QWen2-72B-Instruct, Nemotron-4-340B-Instruct, Mixtral-8x22BInstruct-v0.1 등을 보실 수 있습니다. 훌륭한 연기자. 그러나 GPT-4-Turbo로 대표되는 독점 대형 모델과 비교하면 개방형 모델은 여전히 많은 분야에서 상당한 격차를 보이고 있습니다. 일반 모델 외에도 프로그래밍 및 수학을 위한 DeepSeek-Coder-V2, 시각 언어 작업을 위한 InternVL과 같이 핵심 영역을 전문으로 하는 일부 개방형 모델이 개발되었습니다.

Google AI가 IMO 수학 올림피아드 은메달을 획득하고 수학적 추론 모델 AlphaProof가 출시되었으며 강화 학습이 다시 시작되었습니다. Jul 26, 2024 pm 02:40 PM

AI의 경우 수학 올림피아드는 더 이상 문제가 되지 않습니다. 목요일에 Google DeepMind의 인공 지능은 AI를 사용하여 올해 국제 수학 올림피아드 IMO의 실제 문제를 해결하는 위업을 달성했으며 금메달 획득에 한 걸음 더 다가섰습니다. 지난 주 막 끝난 IMO 대회에는 대수학, 조합론, 기하학, 수론 등 6개 문제가 출제됐다. 구글이 제안한 하이브리드 AI 시스템은 4문제를 맞혀 28점을 얻어 은메달 수준에 이르렀다. 이달 초 UCLA 종신 교수인 테렌스 타오(Terence Tao)가 상금 100만 달러의 AI 수학 올림피아드(AIMO Progress Award)를 추진했는데, 예상외로 7월 이전에 AI 문제 해결 수준이 이 수준으로 향상됐다. IMO에서 동시에 질문을 해보세요. 가장 정확하게 하기 어려운 것이 IMO인데, 역사도 가장 길고, 규모도 가장 크며, 가장 부정적이기도 합니다.

자연의 관점: 의학 분야의 인공지능 테스트는 혼란에 빠졌습니다. 어떻게 해야 할까요? Aug 22, 2024 pm 04:37 PM

Editor | ScienceAI 제한된 임상 데이터를 기반으로 수백 개의 의료 알고리즘이 승인되었습니다. 과학자들은 누가 도구를 테스트해야 하며 최선의 방법은 무엇인지에 대해 토론하고 있습니다. 데빈 싱(Devin Singh)은 응급실에서 오랜 시간 치료를 기다리던 중 심장마비를 겪는 소아환자를 목격했고, 이를 계기로 대기시간을 단축하기 위해 AI 적용을 모색하게 됐다. SickKids 응급실의 분류 데이터를 사용하여 Singh과 동료들은 잠재적인 진단을 제공하고 테스트를 권장하는 일련의 AI 모델을 구축했습니다. 한 연구에 따르면 이러한 모델은 의사 방문 속도를 22.3% 단축하여 의료 검사가 필요한 환자당 결과 처리 속도를 거의 3시간 단축할 수 있는 것으로 나타났습니다. 그러나 인공지능 알고리즘의 연구 성공은 이를 입증할 뿐이다.

수백만 개의 결정 데이터로 훈련하여 결정학적 위상 문제를 해결하는 딥러닝 방법인 PhAI가 Science에 게재되었습니다. Aug 08, 2024 pm 09:22 PM

Editor |KX 오늘날까지 단순한 금속부터 큰 막 단백질에 이르기까지 결정학을 통해 결정되는 구조적 세부 사항과 정밀도는 다른 어떤 방법과도 비교할 수 없습니다. 그러나 가장 큰 과제인 소위 위상 문제는 실험적으로 결정된 진폭에서 위상 정보를 검색하는 것입니다. 덴마크 코펜하겐 대학의 연구원들은 결정 위상 문제를 해결하기 위해 PhAI라는 딥러닝 방법을 개발했습니다. 수백만 개의 인공 결정 구조와 그에 상응하는 합성 회절 데이터를 사용하여 훈련된 딥러닝 신경망은 정확한 전자 밀도 맵을 생성할 수 있습니다. 연구는 이 딥러닝 기반의 순순한 구조 솔루션 방법이 단 2옹스트롬의 해상도로 위상 문제를 해결할 수 있음을 보여줍니다. 이는 원자 해상도에서 사용할 수 있는 데이터의 10~20%에 해당하는 반면, 기존의 순순한 계산은

대형 모델에 대한 새로운 과학적이고 복잡한 질문 답변 벤치마크 및 평가 시스템을 제공하기 위해 UNSW, Argonne, University of Chicago 및 기타 기관이 공동으로 SciQAG 프레임워크를 출시했습니다. Jul 25, 2024 am 06:42 AM

편집자 |ScienceAI 질문 응답(QA) 데이터 세트는 자연어 처리(NLP) 연구를 촉진하는 데 중요한 역할을 합니다. 고품질 QA 데이터 세트는 모델을 미세 조정하는 데 사용될 수 있을 뿐만 아니라 LLM(대형 언어 모델)의 기능, 특히 과학적 지식을 이해하고 추론하는 능력을 효과적으로 평가하는 데에도 사용할 수 있습니다. 현재 의학, 화학, 생물학 및 기타 분야를 포괄하는 과학적인 QA 데이터 세트가 많이 있지만 이러한 데이터 세트에는 여전히 몇 가지 단점이 있습니다. 첫째, 데이터 형식이 비교적 단순하고 대부분이 객관식 질문이므로 평가하기 쉽지만 모델의 답변 선택 범위가 제한되고 모델의 과학적 질문 답변 능력을 완전히 테스트할 수 없습니다. 이에 비해 개방형 Q&A는

PRO | MoE 기반의 대형 모델이 더 주목받는 이유는 무엇인가요? Aug 07, 2024 pm 07:08 PM

2023년에는 AI의 거의 모든 분야가 전례 없는 속도로 진화하고 있다. 동시에 AI는 구체화된 지능, 자율주행 등 핵심 트랙의 기술적 한계를 지속적으로 확장하고 있다. 멀티모달 추세 하에서 AI 대형 모델의 주류 아키텍처인 Transformer의 상황이 흔들릴까요? MoE(Mixed of Experts) 아키텍처를 기반으로 한 대형 모델 탐색이 업계에서 새로운 트렌드가 된 이유는 무엇입니까? 대형 비전 모델(LVM)이 일반 비전 분야에서 새로운 돌파구가 될 수 있습니까? ...지난 6개월 동안 공개된 본 사이트의 2023 PRO 회원 뉴스레터에서 위 분야의 기술 동향과 산업 변화에 대한 심층 분석을 제공하여 새로운 환경에서 귀하의 목표 달성에 도움이 되는 10가지 특별 해석을 선택했습니다. 년. 준비하세요. 이 해석은 2023년 50주차에 나온 것입니다.

최고의 분자를 자동으로 식별하고 합성 비용을 절감합니다. MIT는 분자 설계 의사결정 알고리즘 프레임워크를 개발합니다. Jun 22, 2024 am 06:43 AM

편집자 | Ziluo AI의 신약 개발 간소화에 대한 활용이 폭발적으로 증가하고 있습니다. 신약 개발에 필요한 특성을 가질 수 있는 수십억 개의 후보 분자를 스크리닝합니다. 재료 가격부터 오류 위험까지 고려해야 할 변수가 너무 많아 과학자들이 AI를 사용하더라도 최고의 후보 분자를 합성하는 데 드는 비용을 평가하는 것은 쉬운 일이 아닙니다. 여기서 MIT 연구진은 최고의 분자 후보를 자동으로 식별하여 합성 비용을 최소화하는 동시에 후보가 원하는 특성을 가질 가능성을 최대화하기 위해 정량적 의사결정 알고리즘 프레임워크인 SPARROW를 개발했습니다. 알고리즘은 또한 이러한 분자를 합성하는 데 필요한 재료와 실험 단계를 결정했습니다. SPARROW는 여러 후보 분자를 사용할 수 있는 경우가 많기 때문에 한 번에 분자 배치를 합성하는 비용을 고려합니다.

See all articles

Google AI가 IMO 수학 올림피아드 은메달을 획득하고 수학적 추론 모델 AlphaProof가 출시되었으며 강화 학습이 다시 시작되었습니다.

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제