深度學習在幾何推理上獲得天才級表現,Nature發表了DeepMind的模型,並在菲爾茲獎得主新聞中獲得讚譽
這項工作代表了 AI 在數學推理上的能力突破,是開發通用 AI 系統的重要里程碑。
這次,人工智慧演算法在數學奧林匹克競賽(IMO)上取得了重大成績突破。
在最新一期的國際權威期刊《自然》雜誌上,發表了一篇論文介紹了名為AlphaGeometry的人工智慧系統。該系統能夠解決奧林匹克幾何問題,而無需人類的示範。專家認為,這是人工智慧朝著具備人類推理能力的方向邁進的重要里程碑。這項研究成果的發表對於推動人工智慧的進一步發展具有重要意義。

論文連結:https://www.nature.com/articles/s41586-023-06747-5
DeepMind 也在論文發表的第一時間將程式碼和模型開源,GitHub:https://github.com/google-deepmind/alphageometry
這是一個人工智慧系統,來自Google DeepMind 研究者之手,它能夠以接近人類奧賽金牌得主的水平解決複雜的幾何問題。
在對30道奧數幾何題的基準測試中,AlphaGeometry在標準奧數時限內解決了25題,而之前最先進的系統只解決了其中10道幾何問題。與此相比,人類金牌得主的平均解答問題數為25.9個。

對於基於學習的AI模型來說,定理證明是一項具有挑戰性的任務。主要原因在於,大多數數學領域中的人類證明很難被翻譯成機器可驗證的語言,這限制了用於訓練AI模型的資料量。為了克服這個問題,DeepMind提出了一種替代方法,即使用合成資料進行定理證明。他們開發了一個通用的指導框架,稱為AlphaGeometry,該框架在許多領域都具有適用性。透過利用合成數據,AlphaGeometry能夠訓練AI模型進行定理證明,並產生高品質的結果。這方法為解決定理證明的困難提供了一個有效的解決方案。
研究介紹
AlphaGeometry 將語言模型與「符號引擎」結合,借助符號和邏輯規則進行數學推論。 在這其中,語言模型擅長識別、預測流程的後續步驟,但缺乏數學推理所需的嚴謹性;另一方面,符號引擎純粹基於形式邏輯和嚴格的規則,這使得它能夠引導語言模型走向理性決策。
在AlphaGeometry 的研究上,DeepMind 從跨越2000 年到2022 年之間的30 個奧林匹克幾何問題(IMO-AG-30)的基準測試集中進行了測試,結果表明,AlphaGeometry 在比賽時間限制下能夠解決25 個問題。而之前最先進的方法(Wu’s method)只能解決 10 個。
眾所周知,由於缺乏推理技能和訓練數據,AI 系統經常難以解決幾何和數學方面的複雜問題。 AlphaGeometry 系統將神經語言模型的預測能力與規則約束推理引擎結合,兩者協同工作以找到了新的解決方案。
此外,為了解決數據難題,該研究產生了大量的合成訓練數據,即1 億個示例,其中許多定理的證明步驟超過200 步,比數學奧林匹克競賽定理的平均證明長度長4倍。
AlphaGeometry 展示了 AI 不斷增長的邏輯推理能力以及發現和驗證新知識的能力。解決奧林匹克級的幾何問題是 AI 在邁向更先進和通用人工智慧系統道路上的一個重要里程碑。
菲爾茲獎得主、IMO 金牌得主Ngô Bảo Châu(吳寶珠)表示:「現在我完全明白了,為什麼AI 研究者們會先嘗試解決國際數學奧林匹克(IMO) 的幾何題目,因為找到它們的解決方案有點像下棋,我們在每一步都有相對較少的合理走法。但我仍然對他們能夠實現這一點感到震驚。這是一項令人印象深刻的成就。」
吳寶珠,2010 年菲爾茲獎得主,現任芝加哥大學教授。
#AlphaGeometry 是一個神經符號系統,由神經語言模型和符號推演引擎組成,它們共同尋找複雜幾何定理的證明。一個系統提供快速、直觀的想法,而另一種則提供更深思熟慮、理性的決策。
由於語言模型擅長識別資料中的一般模式和關係,因此它們可以快速預測潛在有用的結構,但通常缺乏嚴格推理或做出解釋。另一方面,符號推演引擎基於形式邏輯並使用明確的規則來得出結論,兩者相互配合,共同構成了 AlphaGeometry。
AlphaGeometry 的語言模型引導其符號推演引擎尋找幾何問題的可能解決方案。一般的奧林匹克幾何問題是基於圖表,需要添加新的幾何結構才能解決,例如點、線或圓。 AlphaGeometry 的語言模型可以從無數種可能性中預測添加哪些新結構最有用。這些線索有助於填補空白,並允許符號引擎對圖表進行進一步推論並接近解決方案。
舉例來說,下圖(上)為AlphaGeometry 解答簡單題的過程,題目為「設ABC 為AB = AC 的任意三角形。證明∠ABC = ∠BCA。」
# AlphaGeometry 證明過程是這樣的:AlphaGeometry 透過運行符號推演引擎(symbolic deduction engine)啟動證明搜尋。這個引擎會從定理的前提出發,詳盡地推導出新的陳述,直到定理被證明或新的陳述被耗盡。假如符號引擎未能找到證明,語言模型會建構一個輔助點,在符號引擎重新開始之前增加可證明的條件。這個循環一直持續到找到解決方案為止。對於簡單的例子,循環在第一個輔助結構“ BC 的中點添加 D 點”之後終止。
下圖(下)為 AlphaGeometry 解決 IMO 的解題思路。 「證明三角形 FKM 和 KQH 的外接圓 (O1) 和 (O2) 彼此相切……」,這麼複雜的問題,AlphaGeometry 同樣也能證明,證明過程還給出了輔助點等。出於說明目的,證明過程被大大縮短和編輯。

產生1 億數學推理訓練資料
人類可以在紙上進行勾勒來學習幾何、檢查圖表並使用現有知識來發現新的、更複雜的幾何屬性和關係。該研究產生合成數據的方法大規模模擬了這種知識建構過程。其中產生合成資料的方法如圖 3 所示。
使用高度並行計算,系統首先產生 5 億個幾何物件的隨機圖,並詳盡地導出每個圖中點和線之間的所有關係。 AlphaGeometry 找到每個圖表中包含的所有證明,然後逆向推導,找出需要哪些額外的結構(如果有的話)來獲得這些證明。此過程為「符號推演與回溯」。
AlphaGeometry 產生的合成資料的視覺化表示
之後,這個巨大的資料池被過濾以排除類似的範例,從而產生了1 億個訓練資料集。
開創性的人工智慧推理能力
AlphaGeometry 提供的每一道奧數題的解法都經過電腦檢查和驗證。研究人員還將其結果與先前的人工智慧方法以及人類在奧林匹克競賽中的表現進行了比較。此外,數學教練、前奧賽金牌得主 Evan Chen(陳誼廷)為我們評估了 AlphaGeometry 的一系列解決方案。
陳誼廷,MIT 數學在讀博士,曾獲得 IMO 2014 年金牌。
Evan Chen 表示:「AlphaGeometry 的輸出令人印象深刻,因為它既可驗證又乾淨。過去針對基於證明的競爭問題的人工智慧解決方案有時是碰巧的(輸出有時是正確的,需要人工檢查),而AlphaGeometry 沒有這個弱點:它的解決方案具有機器可驗證的結構。另一方面,它的輸出仍然是人類可讀的。人們可以想像一個通過強力坐標系解決幾何問題的電腦程式:想想一頁又一頁繁瑣的代數計算,AlphaGeometry 不是這樣做的,它像人類學生一樣使用帶有角度和相似三角形的經典幾何規則。」
最近一段時間,金融科技公司 XTX Markets 設立了人工智慧奧林匹克數學獎(AI-MO Prize),旨在鼓勵能夠進行數學推理的人工智慧模型的開發。由於每個奧林匹克競賽都有六個問題,其中只有兩個通常集中在幾何上,因此 AlphaGeometry 只能應用於給定奧林匹克競賽中的三分之一問題。
儘管如此,AlphaGeometry 僅靠自己的幾何解題能力就成為了世界上第一個能夠在 2000 年和 2015 年通過 IMO 銅牌門檻的人工智慧模型。
DeepMind 已在著手推進下一代人工智慧系統的推理。研究人員認為,鑑於利用大規模合成資料從頭開始訓練人工智慧系統的廣泛潛力,這種方法可能會影響未來人工智慧系統發現數學及其他領域新知識的方向。
AlphaGeometry 開創了人工智慧數學推理的先河 —— 從探索純數學之美到使用語言模型解決數學和科學問題。人們希望這種技術能持續提升,進而解決更高階、抽象的數學問題。
而在數學之外,AlphaGeometry 的影響或許還可以涵蓋更多包含幾何問題的領域,如電腦視覺、建築,甚至理論物理學等。
參考內容:
https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system -for-geometry/
#以上是深度學習在幾何推理上獲得天才級表現,Nature發表了DeepMind的模型,並在菲爾茲獎得主新聞中獲得讚譽的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

但可能打不過公園裡的老大爺?巴黎奧運正在如火如荼地進行中,乒乓球項目備受關注。同時,機器人打乒乓球也取得了新突破。剛剛,DeepMind提出了第一個在競技乒乓球比賽中達到人類業餘選手等級的學習型機器人智能體。論文地址:https://arxiv.org/pdf/2408.03906DeepMind這個機器人打乒乓球什麼程度呢?大概和人類業餘選手不相上下:正手反手都會:對手採用多種打法,機器人也能招架得住:接不同旋轉的發球:不過,比賽激烈程度似乎不如公園老大爺對戰。對機器人來說,乒乓球運動

8月21日,2024世界機器人大會在北京隆重召開。商湯科技旗下家用機器人品牌「元蘿蔔SenseRobot」家族全系產品集體亮相,並最新發布元蘿蔔AI下棋機器人-國際象棋專業版(以下簡稱「元蘿蔔國象機器人」),成為全球首個走進家庭的西洋棋機器人。作為元蘿蔔的第三款下棋機器人產品,全新的國象機器人在AI和工程機械方面進行了大量專項技術升級和創新,首次在家用機器人上實現了透過機械爪拾取立體棋子,並進行人機對弈、人人對弈、記譜複盤等功能,

開學將至,該收心的不只即將開啟新學期的同學,可能還有AI大模型。前段時間,Reddit擠滿了吐槽Claude越來越懶的網友。 「它的水平下降了很多,經常停頓,甚至輸出也變得很短。在發布的第一周,它可以一次性翻譯整整4頁文稿,現在連半頁都輸出不了!」https:// www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一個名為“對Claude徹底失望了的帖子裡”,滿滿地

在北京舉行的世界機器人大會上,人形機器人的展示成為了現場絕對的焦點,在星塵智能的展台上,由於AI機器人助理S1在一個展區上演揚琴、武術、書法三台大戲,能文能武,吸引了大量專業觀眾和媒體的駐足。在有彈性的琴弦上優雅的演奏,讓S1展現出速度、力度、精準度兼具的精細操作與絕對掌控。央視新聞對「書法」背後的模仿學習和智慧控制進行了專題報道,公司創始人來傑解釋到,絲滑動作的背後,是硬體側追求最好力控和最仿人身體指標(速度、負載等),而是在AI側則採集人的真實動作數據,讓機器人遇強則強,快速學習進化。而敏捷

本屆ACL大會,投稿者「收穫滿滿」。為期六天的ACL2024正在泰國曼谷舉辦。 ACL是計算語言學和自然語言處理領域的頂級國際會議,由國際計算語言學協會組織,每年舉辦一次。一直以來,ACL在NLP領域的學術影響力都名列第一,它也是CCF-A類推薦會議。今年的ACL大會已是第62屆,接收了400餘篇NLP領域的前沿工作。昨天下午,大會公佈了最佳論文等獎項。此次,最佳論文獎7篇(兩篇未公開)、最佳主題論文獎1篇、傑出論文獎35篇。大會也評出了資源論文獎(ResourceAward)3篇、社會影響力獎(

視覺與機器人學習的深度融合。當兩隻機器手絲滑地互相合作疊衣服、倒茶、將鞋子打包時,加上最近老上頭條的1X人形機器人NEO,你可能會產生一種感覺:我們似乎開始進入機器人時代了。事實上,這些絲滑動作正是先進機器人技術+精妙框架設計+多模態大模型的產物。我們知道,有用的機器人往往需要與環境進行複雜精妙的交互,而環境則可被表示成空間域和時間域上的限制。舉個例子,如果要讓機器人倒茶,那麼機器人首先需要抓住茶壺手柄並使之保持直立,不潑灑出茶水,然後平穩移動,一直到讓壺口與杯口對齊,之後以一定角度傾斜茶壺。這

會議簡介隨著科技的快速發展,人工智慧成為了推動社會進步的重要力量。在這個時代,我們有幸見證並參與分散式人工智慧(DistributedArtificialIntelligence,DAI)的創新與應用。分散式人工智慧是人工智慧領域的重要分支,這幾年引起了越來越多的關注。基於大型語言模型(LLM)的智能體(Agent)異軍突起,透過結合大模型的強大語言理解和生成能力,展現了在自然語言互動、知識推理、任務規劃等方面的巨大潛力。 AIAgent正在接棒大語言模型,成為目前AI圈的熱門話題。 Au

今天下午,鸿蒙智行正式迎来了新品牌与新车。8月6日,华为举行鸿蒙智行享界S9及华为全场景新品发布会,带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕昇激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品,从智慧出行、智慧办公到智能穿戴,华为全场景智慧生态持续构建,为消费者带来万物互联的智慧体验。鸿蒙智行:深度赋能,推动智能汽车产业升级华为联合中国汽车产业伙伴,为
