DeepMind論文登上Nature:困擾數學家數十年的難題,大模型發現全新解
作為今年人工智慧領域的頂尖技術,大型語言模型(LLM)擅長於將概念進行組合,並透過閱讀、理解、寫作和編碼來幫助人們解決問題。但是,它們是否能夠發現全新的知識呢?
鑑於LLM已被證明存在"幻覺"問題,即生成與事實不符的信息,因此利用LLM進行可驗證的正確發現是一項具有挑戰性的任務
現在,來自Google DeepMind 的研究團隊提出了一種為數學和電腦科學問題搜尋解決方案的新方法——FunSearch。 FunSearch 的工作原理是將預先訓練的 LLM(以電腦程式碼的形式提供創意解決方案)與自動「評估器」配對,以防止產生幻覺和錯誤想法。透過在這兩個組件之間來回迭代,最初的解決方案演變成了「新的知識」。相關論文發表在《自然》雜誌。
論文網址:https://www.nature.com/articles/s41586-023-06924-6
#這項工作是首次利用LLM 在科學或數學的挑戰性開放問題方面取得新發現。
FunSearch 發掘出全新的 cap set 問題解決方案,這是數學領域中一直存在的未解決問題。此外,DeepMind 還借助該解決方案,探索出更有效率的演算法來解決「裝箱」問題,該問題在許多領域都有廣泛應用,例如資料中心的效率提升。展示了FunSearch 的實際應用價值
研究團隊認為FunSearch 將成為一個特別強大的科學工具,因為它輸出的程式揭示了其解決方案是如何建構的,而不僅僅是是解決方案是什麼。這將會激發科學家的進一步見解,從而形成科學改進與發現的良性循環。
透過語言模型的演化推動發現
FunSearch 採用了由LLM 支援的演化演算法,以鼓勵和推動得分最高的創意和思路。這些創意和想法可以被表達為計算機程序,以便它們可以自動運行和評估
首先,用戶需要將問題的描述以代碼的形式編寫出來。這個描述應該包括評估程序的過程以及用於初始化程序池的種子程序
FunSearch是一個不斷迭代的過程。在每次迭代中,系統會從目前的程序集區中選擇一些程序,並將其傳遞給LLM。 LLM會在此基礎上進行建置並產生新的程序,然後自動進行評估。最佳的程序將被添加回到現有的程式庫中,從而形成一個自我改進的循環。 FunSearch使用了Google的PaLM 2,但也相容於其他接受過程式碼訓練的方法
#LLM 會從程式資料庫中檢索出生成的最佳程序,並被要求產生一個更好的程序。
眾所周知,在各個領域中探索新的數學知識和演算法是非常具有挑戰性的任務,往往超出目前最先進的人工智慧系統的能力範圍。為了讓FunSearch能夠勝任這項任務,研究團隊引進了多個關鍵元件。 FunSearch並非從零開始,而是從問題的常識出發,透過演化過程來專注於尋找最關鍵的想法以實現新的發現
此外,FunSearch 的演化過程使用一種策略來提高想法的多樣性,以避免停滯情況。最後,為了提高系統效率,進化過程是並行運作的。
在數學領域開闢新天地
DeepMind 表示,他們首先要解決的是Cap set 問題,這是一個開放性難題,幾十年來一直困擾著多個研究領域的數學家。知名數學家陶哲軒曾把它描述為自己最喜歡的開放性問題。 DeepMind 選擇與威斯康辛大學麥迪遜分校的數學教授 Jordan Ellenberg 合作,他是 Cap set 問題的重要突破者。
一個重要的問題是在高維網格中尋找最大的點集(稱為「cap set」),使得其中沒有三個點共線。這個問題的重要性在於它可以作為極值組合學中其他問題的模型。極端值組合學研究集合可能具有的最小或最大大小,這些集合可以是數字、圖形或其他物件。暴力解法無法解決此問題——需要考慮的可能性數量很快就會超過宇宙中原子的數量
#FunSearch 以程式形式產生的解決方案在某些情況下發現了有史以來最大的cap set。這代表了過去 20 年 cap set 規模的最大成長。此外,FunSearch 的性能超過了最先進的計算求解器,因為這個問題的規模遠遠超出了它們目前的能力。
互動式圖表顯示了從種子程式(上)到新的高分函數(下)的演變。每個圓圈都代表一個程序,其大小與分配給它的分數成正比。圖中僅顯示底部程式的上級。 FunSearch 為每個節點產生的對應函數如右側所示。
這些結果表明,FunSearch 技術可以讓人類超越困難組合問題的既定結果,而在這些問題上很難建立直覺。 DeepMind 期望這種方法能夠在組合學中類似理論問題的新發現中發揮作用,並在未來為通訊理論等領域帶來新的可能性。
FunSearch 偏好簡潔、可由人類理解的程式
儘管發現新的數學知識本身意義重大,但與傳統的電腦搜尋技術相比,FunSearch 方法也展現出了其他的優勢。這是因為,FunSearch 並不是只會產生問題解決方案的黑盒子。相反,它產生的程式會描述出這些解決方案是如何得出的。這種「show-your-working」通常是科學家的工作方式,他們透過闡述產生新發現或新現象的過程來解釋這些發現或現象。
FunSearch更傾向於尋找具有較低Kolmogorov複雜度的解決方案,這些解決方案代表了高度緊湊的程序。 Kolmogorov複雜度是指輸出解所需要的最短電腦程式的長度。透過使用簡短的程序,FunSearch可以描述非常大的對象,從而能夠處理非常複雜的問題。此外,這也讓研究者更容易理解FunSearch產生的程式輸出。 Ellenberg表示:「FunSearch提供了一種全新的機制來製定打擊策略。透過FunSearch產生的解決方案在概念上比單純的數字清單更為豐富。透過研究它們,我學到了一些東西。」
更重要的是,FunSearch 程式的這種可解釋性可以為研究人員提供可操作的見解。例如,DeepMind 在使用 FunSearch 的過程中註意到,它的一些高分輸出的程式碼中存在著耐人尋味的對稱性。這讓 DeepMind 對問題有了新的認識,他們利用這種認識改進了引入 FunSearch 的問題,從而找到了更好的解決方案。 DeepMind 認為,這是人類與 FunSearch 在數學領域的許多問題上合作的典範。
左圖:透過檢查 FunSearch 產生的程式碼,DeepMind 獲得了更多可操作的見解(高亮部分)。右圖:使用(較短的)左圖程式構造的原始「可接受」集合。
解決一個眾所周知的計算難題
在理論cap set 問題成功的鼓舞下,DeepMind 決定將FunSearch 應用於電腦科學中一個重要的實際挑戰- 裝箱問題(bin packing),以探索它的靈活性。裝箱問題關注的是如何將不同尺寸的物品打包到最少數量的箱子中。它是許多現實世界問題的核心,從裝載物品的貨櫃到資料中心的計算工作分配,這些場景都需要最大限度地降低成本。
通常,解決線上裝箱問題會使用基於人類經驗的啟發式演算法規則。然而,針對每種特定情況(大小、時間或容量各不相同)制定一套規則是非常具有挑戰性的。雖然與 cap set 問題有很大不同,但使用 FunSearch 來解決這個問題非常容易。 FunSearch 提供了一個自動自訂的程序,可以根據具體情況適應數據,相較於現有的啟發式方法,它能夠使用更少的箱子來裝載相同數量的物品
使用現有啟發式-Best-fit 啟發式(左)和FunSearch 發現的啟發式(右)進行裝箱的範例。
像是線上裝箱這樣的複雜組合問題可以使用其他人工智慧方法來解決,例如神經網路和強化學習。這些方法也被證明是有效的,但也可能需要大量的資源來部署。另一方面,FunSearch 輸出的程式碼易於檢查和部署,這意味著它的解決方案有可能被應用到各種現實工業系統中,從而迅速帶來效益。
DeepMind:用大模型應對科學挑戰將成普遍做法
FunSearch 證明,如果能防止LLM 產生幻覺,那麼這些模型的力量不僅可以用來產生新的數學發現,還可以用來揭示重要現實問題的潛在解決方案。
DeepMind 認為,對於科學和工業領域的許多問題—— 無論是長期存在的問題還是新問題—— 使用LLM 驅動的方法生成有效和量身定制的演算法將成為普遍做法。
其實,這只是一個開始。隨著 LLM 不斷取得進展,FunSearch 也將持續改進。 DeepMind 表示,他們還將努力擴展其功能,以應對社會上各種緊迫的科學和工程挑戰。
以上是DeepMind論文登上Nature:困擾數學家數十年的難題,大模型發現全新解的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

在iPhone上面臨滯後,緩慢的行動數據連線?通常,手機上蜂窩互聯網的強度取決於幾個因素,例如區域、蜂窩網絡類型、漫遊類型等。您可以採取一些措施來獲得更快、更可靠的蜂窩網路連線。修復1–強制重啟iPhone有時,強制重啟設備只會重置許多內容,包括蜂窩網路連線。步驟1–只需按一次音量調高鍵並放開即可。接下來,按降低音量鍵並再次釋放它。步驟2–過程的下一部分是按住右側的按鈕。讓iPhone完成重啟。啟用蜂窩數據並檢查網路速度。再次檢查修復2–更改資料模式雖然5G提供了更好的網路速度,但在訊號較弱

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

寫在前面項目連結:https://nianticlabs.github.io/mickey/給定兩張圖片,可以透過建立圖片之間的對應關係來估計它們之間的相機姿態。通常,這些對應關係是二維到二維的,而我們估計的姿態在尺度上是不確定的。一些應用,例如隨時隨地實現即時增強現實,需要尺度度量的姿態估計,因此它們依賴外部的深度估計器來恢復尺度。本文提出了MicKey,這是一個關鍵點匹配流程,能夠夠預測三維相機空間中的度量對應關係。透過學習跨影像的三維座標匹配,我們能夠在沒有深度測試的情況下推斷度量相對
