目錄
研究問題
真SOTA還是資料外洩?
DeepMind回應
首頁 科技週邊 人工智慧 連續反轉! DeepMind遭俄羅斯團隊質疑:我們該如何證明神經網路懂物理世界?

連續反轉! DeepMind遭俄羅斯團隊質疑:我們該如何證明神經網路懂物理世界?

Apr 12, 2023 am 09:55 AM
人工智慧 deepmind

最近科學界又出現一場爭論,故事的主角是DeepMind位於倫敦的研究中心於2021年12月發表的一篇Science論文,研究人員發現神經網路可以用來訓練並建構比以前更精確的電子密度和交互作用圖,能夠有效解決傳統泛函理論中的系統誤差。

連續反轉! DeepMind遭俄羅斯團隊質疑:我們該如何證明神經網路懂物理世界?

論文連結:https://www.science.org/doi/epdf/10.1126/science.abj6511

文中提出的DM21模型精確地模擬了複雜的系統,如氫鏈、帶電的DNA鹼基對和二元過渡態。對量子化學領域來說,可以說是開闢了一條通往精確的通用函數且可行的技術路線。

DeepMind的研究人員也放出了DM21模型的程式碼,方便同儕復現。

連續反轉! DeepMind遭俄羅斯團隊質疑:我們該如何證明神經網路懂物理世界?

#倉庫連結:https://github.com/deepmind/deepmind-research

依照道理來說,論文和程式碼都公開,還是發表在頂尖期刊上,實驗結果和研究結論基本上是可靠的

但時隔八個月,來自俄羅斯和韓國的八位研究人員也在Science上發表了一篇科技評論,他們認為DeepMind原始研究中存在問題,即訓練集和測試集可能存在重疊部分,導致實驗結論不正確。

連續反轉! DeepMind遭俄羅斯團隊質疑:我們該如何證明神經網路懂物理世界?

論文連結:https://www.science.org/doi/epdf/10.1126/science.abq3385

如果質疑屬實,那DeepMind這篇號稱化學界重大技術突破的論文,神經網路取得的改進可能都得歸功於資料外洩了。

不過DeepMind的反應也很迅速,在該評論發表的同一天,立刻寫了一篇回應表示反對,並表示強烈譴責:他們提出的觀點要么不正確,要麼與論文的主要結論以及對DM21總體品質的評估無關

連續反轉! DeepMind遭俄羅斯團隊質疑:我們該如何證明神經網路懂物理世界?

論文連結:https://www.science.org/doi/epdf/10.1126/science.abq4282

著名物理學家費曼曾說過,科學家就是要盡快證明自己是錯的,只有這樣才能進步。

雖然這次討論的結果還沒有定論,俄羅斯團隊也沒有進一步發表反駁文章,但該事件對人工智慧領域的研究可能會產生更深遠的影響:即該如何證明自己訓練得到的神經網路模型,真正理解了任務,而非只是記憶pattern?

研究問題

化學是21世紀的中心科學(確信),例如設計具有指定特性的新材料,如生產清潔電力或開發高溫超導體,都需要在電腦上對電子進行模擬。

電子是控制原子如何結合形成分子的亞原子粒子,也負責固體中的電流流動,了解電子在分子內的位置可以大大有助於解釋其結構、性質和反應性。

1926年,薛丁格提出薛丁格方程,能夠正確描述波函數的量子行為。但用該方程式來預測分子中的電子則顯得力不從心,因為所有的電子都相互排斥,需要追蹤每個電子位置的機率,即使對於少量電子來說也是一項非常複雜的任務。

連續反轉! DeepMind遭俄羅斯團隊質疑:我們該如何證明神經網路懂物理世界?

 1960 年代出現了一項重大突破,當時Pierre Hohenberg和Walter Kohn意識到沒有必要單獨追蹤每個電子。相反,知道任何電子在每個位置的機率(即電子密度)就足以準確計算所有交互作用。

在證明了上述理論後,Kohn獲得諾貝爾化學獎,從而創立了密度泛函理論(density functional theory, DFT)

儘管DFT 證明mapping存在,但50多年來,電子密度和相互作用能之間映射的確切性質,即所謂的密度泛函仍然未知,必須進行近似求解。

DFT本質上還是一種求解薛丁格方程式的方法,其準確性取決於它的交換相關(exchange-correlation)部分。雖然DFT涉及一定程度的近似,但它是研究物質在微觀層面如何以及為何以某種方式表達的唯一實用方法,因此已成為所有科學領域中使用最廣泛的技術之一。

多年來,研究人員提出了400多種精確度不同的近似函數,但所有這些近似都存在系統誤差,因為它們無法捕捉精確泛函的某些關鍵數學特性。

一說到學習近似函數,這不就是神經網路在做的事嗎?

連續反轉! DeepMind遭俄羅斯團隊質疑:我們該如何證明神經網路懂物理世界?

 DeepMind在這篇論文裡就是在分子資料和具有分數電荷和自旋的虛構系統上訓練一個神經網路DM 21 (DeepMind 21),成功學習到了一個沒有系統錯誤的泛函,能夠避免離域誤差(delocalization error)和自旋對稱性破缺(spin symmetry breaking),可以更好地描述廣泛的化學反應類別。

連續反轉! DeepMind遭俄羅斯團隊質疑:我們該如何證明神經網路懂物理世界?

 從原理上來說,任何涉及電荷移動的化學物理過程都容易出現離域誤差,任何涉及鍵斷裂的過程都容易出現自旋對稱性破缺。而電荷運動和鍵斷裂是許多重要技術應用的核心,但這些問題也可能導致描述最簡單分子(如氫)的官能基出現大量定性失敗。

連續反轉! DeepMind遭俄羅斯團隊質疑:我們該如何證明神經網路懂物理世界?

 模型搭建採用的是多層感知器(MLP),輸入為被佔領的Kohn-Sham(KS)軌道的局部和非局部特徵。

目標函數包含兩個:一個是用於學習交換相關能本身的迴歸損失,另一個是確保函數導數在訓練後可用於自洽場(self-consistent field , SCF)計算的梯度正規化項。

對於迴歸損失,研究人員用一個固定密度的資料集,代表了2235個反應的反應物和產物,透過最小二乘法目標,訓練網路從這些密度映射到高準確度的反應能量,其中1161個訓練反應代表了小型主族H-Kr分子的原子化、電離、電子親和力和分子間結合能,1074個反應代表了H-Ar原子的關鍵FC和FS密度。

訓練後得到的模型DM21能夠在大型主族基準的所有反應上自洽地運行,產生更準確的分子密度。

真SOTA還是資料外洩?

DeepMind在訓練DM21時,所採用的資料是分數電荷系統,例如帶有半個電子的氫原子。

為了證明DM21的優越性,研究人員在一組拉伸二聚體(stretched dimers)上,稱為bond-breaking benchmark(BBB)群組,進行測試。例如兩個氫原子相距很遠,總共有一個電子。

實驗結果發現DM21泛函在BBB測試集上表現出出色的性能,超越了迄今為止所有測試的經典DFT泛函和DM21m(與DM21 訓練相同,但在訓練集中沒有分數電荷)。

然後DeepMind在論文中宣稱:DM21已經了解分數電荷系統背後的物理原理。

但仔細觀察就會發現BBB組中,所有二聚體都變得與訓練組中的系統非常相似。實際上,由於電弱相互作用的局部性,原子相互作用僅在短距離處強,在此之外,兩個原子的行為基本上就好像它們沒有相互作用。

連續反轉! DeepMind遭俄羅斯團隊質疑:我們該如何證明神經網路懂物理世界?

俄羅斯科學院澤林斯基有機化學研究所的研究小組長Michael Medvedev解釋說,在某些方面,神經網路就像人類一樣,他們更喜歡因為錯誤的原因得到正確的答案。因此,訓練神經網路並不難,但你很難證明它已經學習了物理定律,而不是只是記住正確的答案。

因此,BBB 測試集不是一個合適的測試集:它不會測試DM21 對分數電子系統的理解,對此類系統的DM21 處理的其他四個證據的徹底分析也沒有得出決定性的結論:只有它在SIE4x4 集上的良好精度可能是可靠的。

連續反轉! DeepMind遭俄羅斯團隊質疑:我們該如何證明神經網路懂物理世界?

俄羅斯的研究者也認為,在訓練集中使用分數電荷系統並不是DeepMind工作中唯一的新穎之處。他們透過訓練集將物理約束引入神經網路的想法,以及透過對正確化學勢的訓練來賦予物理意義的方法,未來可能會廣泛用於神經網路DFT 泛函的建構。

DeepMind回應

對於Comment論文聲稱的DM21對於訓練集外預測分數電荷(FC)和分數自旋(FS)條件的能力在論文中沒有得到證明,這是基於訓練集與斷鍵基準BBB有約50%的重疊,以及其他泛化例子的有效性和準確性得出的結論。

DeepMind不同意該分析,並認為所提出的觀點要么不正確,要么與本文的主要結論和對DM21總體質量的評估不相關,因為BBB並不是論文中所展示的FC和FS行為的唯一例子。

連續反轉! DeepMind遭俄羅斯團隊質疑:我們該如何證明神經網路懂物理世界?

 訓練集和測試集之間的overlap是機器學習中值得關注的研究問題:記憶意味著一個模型可以透過複製訓練集中的例子在測試集上表現較好。

Gerasimov認為DM21在BBB上的表現(包含有限距離的二聚體)可以透過複製FC和FS系統的輸出(即原子在無限分離極限時與二聚體匹配)得到很好的解釋。

連續反轉! DeepMind遭俄羅斯團隊質疑:我們該如何證明神經網路懂物理世界?

 為了證明DM21的泛化超出了訓練集,DeepMind研究人員也考慮H2 (陽離子二聚體)和H2(中性二聚體)的原型BBB例子,可以得出結論:確切的exchange-correlation函數是非局部的;隨著距離的增加,返回一個常數記憶的值會導致BBB預測出現顯著錯誤。

以上是連續反轉! DeepMind遭俄羅斯團隊質疑:我們該如何證明神經網路懂物理世界?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1653
14
CakePHP 教程
1413
52
Laravel 教程
1306
25
PHP教程
1251
29
C# 教程
1224
24
位元組跳動剪映推出 SVIP 超級會員:連續包年 499 元,提供多種 AI 功能 位元組跳動剪映推出 SVIP 超級會員:連續包年 499 元,提供多種 AI 功能 Jun 28, 2024 am 03:51 AM

本站6月27日訊息,剪映是由位元組跳動旗下臉萌科技開發的一款影片剪輯軟體,依託於抖音平台且基本面向該平台用戶製作短影片內容,並相容於iOS、安卓、Windows 、MacOS等作業系統。剪映官方宣布會員體系升級,推出全新SVIP,包含多種AI黑科技,例如智慧翻譯、智慧劃重點、智慧包裝、數位人合成等。價格方面,剪映SVIP月費79元,年費599元(本站註:折合每月49.9元),連續包月則為59元每月,連續包年為499元每年(折合每月41.6元) 。此外,剪映官方也表示,為提升用戶體驗,向已訂閱了原版VIP

使用Rag和Sem-Rag提供上下文增強AI編碼助手 使用Rag和Sem-Rag提供上下文增強AI編碼助手 Jun 10, 2024 am 11:08 AM

透過將檢索增強生成和語意記憶納入AI編碼助手,提升開發人員的生產力、效率和準確性。譯自EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG,作者JanakiramMSV。雖然基本AI程式設計助理自然有幫助,但由於依賴對軟體語言和編寫軟體最常見模式的整體理解,因此常常無法提供最相關和正確的程式碼建議。這些編碼助手產生的代碼適合解決他們負責解決的問題,但通常不符合各個團隊的編碼標準、慣例和風格。這通常會導致需要修改或完善其建議,以便將程式碼接受到應

DeepMind機器人打乒乓球,正手、反手溜到飛起,全勝人類初學者 DeepMind機器人打乒乓球,正手、反手溜到飛起,全勝人類初學者 Aug 09, 2024 pm 04:01 PM

但可能打不過公園裡的老大爺?巴黎奧運正在如火如荼地進行中,乒乓球項目備受關注。同時,機器人打乒乓球也取得了新突破。剛剛,DeepMind提出了第一個在競技乒乓球比賽中達到人類業餘選手等級的學習型機器人智能體。論文地址:https://arxiv.org/pdf/2408.03906DeepMind這個機器人打乒乓球什麼程度呢?大概和人類業餘選手不相上下:正手反手都會:對手採用多種打法,機器人也能招架得住:接不同旋轉的發球:不過,比賽激烈程度似乎不如公園老大爺對戰。對機器人來說,乒乓球運動

七個很酷的GenAI & LLM技術性面試問題 七個很酷的GenAI & LLM技術性面試問題 Jun 07, 2024 am 10:06 AM

想了解更多AIGC的內容,請造訪:51CTOAI.x社群https://www.51cto.com/aigc/譯者|晶顏審校|重樓不同於網路上隨處可見的傳統問題庫,這些問題需要跳脫常規思維。大語言模型(LLM)在數據科學、生成式人工智慧(GenAI)和人工智慧領域越來越重要。這些複雜的演算法提升了人類的技能,並在許多產業中推動了效率和創新性的提升,成為企業保持競爭力的關鍵。 LLM的應用範圍非常廣泛,它可以用於自然語言處理、文字生成、語音辨識和推薦系統等領域。透過學習大量的數據,LLM能夠產生文本

微調真的能讓LLM學到新東西嗎:引入新知識可能讓模型產生更多的幻覺 微調真的能讓LLM學到新東西嗎:引入新知識可能讓模型產生更多的幻覺 Jun 11, 2024 pm 03:57 PM

大型語言模型(LLM)是在龐大的文字資料庫上訓練的,在那裡它們獲得了大量的實際知識。這些知識嵌入到它們的參數中,然後可以在需要時使用。這些模型的知識在訓練結束時被「具體化」。在預訓練結束時,模型實際上停止學習。對模型進行對齊或進行指令調優,讓模型學習如何充分利用這些知識,以及如何更自然地回應使用者的問題。但是有時模型知識是不夠的,儘管模型可以透過RAG存取外部內容,但透過微調使用模型適應新的領域被認為是有益的。這種微調是使用人工標註者或其他llm創建的輸入進行的,模型會遇到額外的實際知識並將其整合

你所不知道的機器學習五大學派 你所不知道的機器學習五大學派 Jun 05, 2024 pm 08:51 PM

機器學習是人工智慧的重要分支,它賦予電腦從數據中學習的能力,並能夠在無需明確編程的情況下改進自身能力。機器學習在各個領域都有廣泛的應用,從影像辨識和自然語言處理到推薦系統和詐欺偵測,它正在改變我們的生活方式。機器學習領域存在著多種不同的方法和理論,其中最具影響力的五種方法被稱為「機器學習五大派」。這五大派分別為符號派、聯結派、進化派、貝葉斯派和類推學派。 1.符號學派符號學(Symbolism),又稱符號主義,強調利用符號進行邏輯推理和表達知識。該學派認為學習是一種逆向演繹的過程,透過現有的

AlphaFold 3 重磅問世,全面預測蛋白質與所有生命分子相互作用及結構,準確度遠超以往水平 AlphaFold 3 重磅問世,全面預測蛋白質與所有生命分子相互作用及結構,準確度遠超以往水平 Jul 16, 2024 am 12:08 AM

编辑|萝卜皮自2021年发布强大的AlphaFold2以来,科学家们一直在使用蛋白质结构预测模型来绘制细胞内各种蛋白质结构的图谱、发现药物,并绘制每种已知蛋白质相互作用的「宇宙图」。就在刚刚,GoogleDeepMind发布了AlphaFold3模型,该模型能够对包括蛋白质、核酸、小分子、离子和修饰残基在内的复合物进行联合结构预测。AlphaFold3的准确性对比过去许多专用工具(蛋白质-配体相互作用、蛋白质-核酸相互作用、抗体-抗原预测)有显著提高。这表明,在单个统一的深度学习框架内,可以实现

為大模型提供全新科學複雜問答基準與評估體系,UNSW、阿貢、芝加哥大學等多家機構共同推出SciQAG框架 為大模型提供全新科學複雜問答基準與評估體系,UNSW、阿貢、芝加哥大學等多家機構共同推出SciQAG框架 Jul 25, 2024 am 06:42 AM

編輯|ScienceAI問答(QA)資料集在推動自然語言處理(NLP)研究中發揮著至關重要的作用。高品質QA資料集不僅可以用於微調模型,也可以有效評估大語言模型(LLM)的能力,尤其是針對科學知識的理解和推理能力。儘管目前已有許多科學QA數據集,涵蓋了醫學、化學、生物等領域,但這些數據集仍有一些不足之處。其一,資料形式較為單一,大多數為多項選擇題(multiple-choicequestions),它們易於進行評估,但限制了模型的答案選擇範圍,無法充分測試模型的科學問題解答能力。相比之下,開放式問答

See all articles