新的「AI科學家」結合理論和數據來發現科學方程
科學家們的目標是發現能夠準確描述實驗數據的有意義的公式。自然現象的數學模型可以根據領域知識手動創建,或者也可以使用機器學習演算法從大型資料集自動建立。學界已經研究了表示相關先驗知識與相關函數模型合併的問題,認為尋找與一般邏輯公理先驗知識一致的模型,是一個懸而未決的問題。
IBM 研究團隊以及三星AI 團隊的研究人員開發了一種方法“AI-Descartes”,透過將邏輯推理與符號回歸相結合,能夠從公理知識和實驗數據中對自然現像模型進行原則性推導。
研究以「Combining data and theory for derivable scientific discovery with AI-Descartes」為題,於2023 年4 月12 日發佈在《Nature Communications》。
人工神經網路 (NN) 和統計迴歸通常用於自動發現資料中的模式和關係。 NN 傳回「黑盒」模型,其中底層函數通常僅用於預測。在標準迴歸中,函數形式是預先決定的,因此模型發現相當於參數擬合。在符號迴歸(SR)中,函數形式不是預先決定的,而是由給定清單中的運算子(例如, 、-、× 和 ÷)組成,並根據資料計算得出。
SR 模型通常比 NN 模型更「可解釋」,並且需要的資料更少。因此,為了從實驗數據中以符號形式發現自然法則,SR 可能比 NN 或固定形式回歸更有效;NN 與 SR 的整合一直是神經符號 AI 近期研究的主題。 SR 的一個主要挑戰是從許多適合數據的模型中識別出具有科學意義的模型。科學家將有意義的函數定義為平衡準確性和複雜性的函數。然而,對於給定的資料集存在許多這樣的表達式,並且並非所有表達式都與已知的背景理論一致。
另一種方法是從已知的背景理論開始,但目前還沒有實用的推理工具可以從一組已知的公理中產生與實驗數據一致的定理。自動定理證明器(ATP)是使用最廣泛的推理工具,它可以為給定邏輯理論證明猜想。計算複雜性是 ATP 面臨的主要挑戰;對於某些類型的邏輯,證明猜想是不可判定的。
此外,當涉及算術和微積分運算子時,使用形式推理工具從邏輯理論推導模型尤其困難。機器學習技術已被用於提高 ATP 的性能,例如,透過使用強化學習來指導搜尋過程。
可推導的模型不僅要在經驗上準確,而且它們應該是可預測的、有洞察力的。
IBM 研究團隊以及三星 AI 團隊的研究人員,試圖透過將一種新穎的基於數學最佳化的 SR 方法與推理系統相結合,來獲得此類模型。這產生了一個端到端的發現系統「AI-Descartes」,它透過 SR 從資料中提取公式,然後從一組公理中提供公式的可推導性的證明,或提供不一致的證明。當模型可證明不可推導時,研究人員提出了表明公式與可推導公式的接近程度的新度量,並且使用他們的推理系統計算這些度量的值。
圖示:系統概述。 (來源:論文)
#在早期将机器学习与推理相结合的工作中,科学家使用基于逻辑的描述来约束生成图像的 GAN 神经架构的输出。也有团队结合机器学习工具和推理引擎,来搜索满足预先指定约束的函数形式。这是用新点扩充初始数据集,从而提高学习方法的效率和最终模型的准确性。也有团队还利用先验知识来创建额外的数据点。然而,这些研究仅考虑对要学习的函数形式的约束,并没有包含一般背景理论公理(描述现象中涉及的其他定律和未测量变量的逻辑约束)。
该论文的第一作者,三星 AI 的研究科学家 Cristina Cornelio 表示,AI-Descartes 提供了一些优于其他系统的优势,但它最显著的特点是它的逻辑推理能力。如果有多个候选方程可以很好地拟合数据,系统会识别哪些方程最适合背景科学理论。推理能力也使该系统有别于 ChatGPT 等「生成式 AI」程序,后者的大型语言模型逻辑能力有限,有时还会搞乱基础数学。
「在我们的工作中,我们正在将第一性原理方法与机器学习时代更常见的数据驱动方法相结合,这种方法几个世纪以来一直被科学家用来从现有背景理论中推导出新公式。」Cornelio 说, 「这种结合使我们能够利用这两种方法,并为广泛的应用创建更准确和有意义的模型。」
AI-Descartes 这个名字是对 17 世纪数学家和哲学家 René Descartes 的致敬,他认为自然世界可以用一些基本的物理定律来描述,逻辑推论在科学发现中发挥了关键作用。
图示:对系统实施的科学方法的解释。(来源:论文)
该团队的研究人员已经证明,将逻辑推理与符号回归相结合,在获得有意义的物理现象符号模型方面有重要价值;因为它们与背景理论一致,并且在明显大于实验数据的领域中具有很好的概括性。回归和推理的综合产生了比单独通过 SR 或逻辑推理更好的模型。
单个系统组件的改进或替换以及新模块的引入,例如溯因推理或实验设计将扩展整个系统的功能。推理和回归的更深入集成可以帮助合成数据驱动和基于第一性原理的模型,并导致科学发现过程的革命。发现与先验知识一致的模型将加速科学发现,并超越现有的发现范式。
该团队使用模型对开普勒行星运动第三定律、爱因斯坦相对论时间膨胀定律和朗缪尔吸附理论进行了推导;研究表明,当使用逻辑推理来区分在数据上具有相似误差的候选公式时,模型可以从少量数据点中发现支配规律。
图示:相关集合及其距离的可视化。(来源:论文)
「在这项工作中,我们需要人类专家以正式的、计算机可读的方式写下背景理论的公理是什么,如果人类遗漏了任何或弄错了其中的任何一个,系统将无法工作。」UMBC 化学、生物化学和环境工程助理教授 Tyler Josephson 说,「在未来,我们也希望将这部分工作自动化,这样我们就可以探索更多的科学和工程领域。」
最终,该团队希望他们的 AI-Descartes 能够像真人科学家一样激发一种富有成效的新科学方法。「我们工作中最令人兴奋的方面之一是更够在科学研究方面获得重大进展的潜力。」Cornelio 说。
论文链接:https://www.nature.com/articles/s41467-023-37236-y
相關報導:https://techxplore.com/news/2023-04-ai-scientist-combines-theory-scientific.html
以上是新的「AI科學家」結合理論和數據來發現科學方程的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

DMA在C 中是指DirectMemoryAccess,直接內存訪問技術,允許硬件設備直接與內存進行數據傳輸,不需要CPU干預。 1)DMA操作高度依賴於硬件設備和驅動程序,實現方式因係統而異。 2)直接訪問內存可能帶來安全風險,需確保代碼的正確性和安全性。 3)DMA可提高性能,但使用不當可能導致系統性能下降。通過實踐和學習,可以掌握DMA的使用技巧,在高速數據傳輸和實時信號處理等場景中發揮其最大效能。

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔,讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分,它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說,chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性,還提供了更高的精度和靈活性。讓我們從基礎開始,chrono庫主要包括以下幾個關鍵組件:std::chrono::system_clock:表示系統時鐘,用於獲取當前時間。 std::chron

在C 中處理高DPI顯示可以通過以下步驟實現:1)理解DPI和縮放,使用操作系統API獲取DPI信息並調整圖形輸出;2)處理跨平台兼容性,使用如SDL或Qt的跨平台圖形庫;3)進行性能優化,通過緩存、硬件加速和動態調整細節級別來提升性能;4)解決常見問題,如模糊文本和界面元素過小,通過正確應用DPI縮放來解決。

交易所內置量化工具包括:1. Binance(幣安):提供Binance Futures量化模塊,低手續費,支持AI輔助交易。 2. OKX(歐易):支持多賬戶管理和智能訂單路由,提供機構級風控。獨立量化策略平台有:3. 3Commas:拖拽式策略生成器,適用於多平台對沖套利。 4. Quadency:專業級算法策略庫,支持自定義風險閾值。 5. Pionex:內置16 預設策略,低交易手續費。垂直領域工具包括:6. Cryptohopper:雲端量化平台,支持150 技術指標。 7. Bitsgap:

C 在實時操作系統(RTOS)編程中表現出色,提供了高效的執行效率和精確的時間管理。 1)C 通過直接操作硬件資源和高效的內存管理滿足RTOS的需求。 2)利用面向對象特性,C 可以設計靈活的任務調度系統。 3)C 支持高效的中斷處理,但需避免動態內存分配和異常處理以保證實時性。 4)模板編程和內聯函數有助於性能優化。 5)實際應用中,C 可用於實現高效的日誌系統。

在C 中測量線程性能可以使用標準庫中的計時工具、性能分析工具和自定義計時器。 1.使用庫測量執行時間。 2.使用gprof進行性能分析,步驟包括編譯時添加-pg選項、運行程序生成gmon.out文件、生成性能報告。 3.使用Valgrind的Callgrind模塊進行更詳細的分析,步驟包括運行程序生成callgrind.out文件、使用kcachegrind查看結果。 4.自定義計時器可靈活測量特定代碼段的執行時間。這些方法幫助全面了解線程性能,並優化代碼。

C 中使用字符串流的主要步驟和注意事項如下:1.創建輸出字符串流並轉換數據,如將整數轉換為字符串。 2.應用於復雜數據結構的序列化,如將vector轉換為字符串。 3.注意性能問題,避免在處理大量數據時頻繁使用字符串流,可考慮使用std::string的append方法。 4.注意內存管理,避免頻繁創建和銷毀字符串流對象,可以重用或使用std::stringstream。

MySQL批量插入数据的高效方法包括:1.使用INSERTINTO...VALUES语法,2.利用LOADDATAINFILE命令,3.使用事务处理,4.调整批量大小,5.禁用索引,6.使用INSERTIGNORE或INSERT...ONDUPLICATEKEYUPDATE,这些方法能显著提升数据库操作效率。
