陶哲軒點評GoogleAlphaProof：AI在數學競賽中展現「超凡智慧」-人工智慧-PHP中文網

陶哲軒點評GoogleAlphaProof：AI在數學競賽中展現「超凡智慧」

PHPz

發布： 2024-07-29 08:25:33

原創

382 人瀏覽過

在奧數問題面前，AI 的「智商」往往不太夠用。不過，這已經是過去式了。 Google DeepMind 用 AI 做出了今年國際數學奧林匹克競賽 IMO 的真題，並且距離拿金牌僅一步之遙。對 AI 來說，奧數不再是問題了。 IMO 2024 中六個問題的每一個問題滿分為 7 分，總分最高為 42 分。 DeepMind 的系統最終得分為 28 分，意味著解決的 4 個問題都獲得了滿分 —— 相當於銀牌類別的最高分。

陶哲軒點評GoogleAlphaProof：AI在數學競賽中展現「超凡智慧」

1. DeepMind 文章連結：https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/

常用處在出差的忙碌中，對問題求解引擎AlphaProof 和AlphaGeometry2 還未完全消化。但他在自己的部落格上對 DeepMind 的 AI 系統參加 IMO 競賽這件事表達了自己的看法。
陶哲軒談到
這是一項非常偉大的工作，再次改變了我們對 AI 輔助或完全自主方法實現基準挑戰期望。
例如，IMO 級的幾何問題對於專用的AI 工具來說已基本解決，形式化證明的IMO 問題至少在某種程度上可以透過強化學習過程被AI 攻克，儘管目前每個問題需要相當大的計算量，並在形式化方面需要人類的幫助。
陶哲軒認為，這種方法還可以自動化形式化數學，從而可能促進包含形式化成分的數學研究方法。如果更公開地分享由此產生的形式證明資料庫，它可能是有用的資源。
這種方法（基於強化學習，類似於 AlphaGo 的精神，強調整體方法）非常聰明，事後看來很有道理。正如「AI 效應」所言，一旦解釋清楚，它不會給人一種展示人類智慧的感覺；但它仍然是我們 AI 輔助問題解決工具集能力的擴展。
「AI 效應」

「AI 效應」是指當人工智慧技術取得進展或解決問題時，人們往往會認為這些成就並不是真正的人工智慧或不具備真正的智慧。換句話說，一旦某項技術被理解或普及，它就不再被認為是智慧的。這種現象表明，人們對「智能」的定義和期望會隨著技術的進步而不斷提高。

NuminaMath 模型

本月月初，陶哲軒在自己的部落格中發布 AI 數學奧林匹克競賽（AIMO 進步獎）的初步成績已公佈的消息。其中，獲得第一名的是 Numina 的團隊。

NuminaMath 模型完全自動化且資源效率高出數個數量級，並且採用了完全不同的方法（使用大型語言模型生成 Python 程式碼，以蠻力解決區域競賽級別的數值答案問題）。這個模型也是完全開源的。

DeepMind 的數學推理研究

DeepMind 在數學推理方面也有不懈的努力。在今年年初，它的人工智慧演算法就已經在數學奧林匹克競賽（IMO）上取得了重大成績突破。論文《Solving olympiad geometry without human demonstrations》向世人介紹了 AlphaGeometry，也登上了國際權威期刊《自然》雜誌。專家表示，這是人工智慧朝著具有人類推理能力邁進的重要一步。

陶哲軒點評GoogleAlphaProof：AI在數學競賽中展現「超凡智慧」