編輯 | ScienceAI
近日,卡內基美隆大學(Carnegie Mellon University)教授,有著「機器學習之父」之稱的Tom M. Mitchell 撰寫了新的AI for Science 白皮書,重點討論了「人工智慧如何加速科學發展?美國政府如何幫助實現這一目標?」這個主題。
ScienceAI 對白皮書原文進行了不改變原意的全文編譯,內容如下。
人工智慧領域最近取得了顯著進展,包括GPT、Claude 和 Gemini 等大型語言模型,因此提出了這樣一種可能性:人工智慧的一個非常積極的影響,也許是大大加速從細胞生物學到材料科學、天氣和氣候建模到神經科學等各種科學領域的研究進展。這裡我們簡單總結這個人工智慧科學機遇,以及美國政府可以做些什麼來抓住這個機會。
當今幾乎所有領域的絕大多數科學研究都可以歸類為「獨行俠」科學。
換句話說,科學家和他們的十幾名研究人員組成的研究團隊提出一個想法,進行實驗來測試它,撰寫並發表結果,也許在互聯網上分享他們的實驗數據,然後重複這個過程。
其他科學家可以透過閱讀已發表的論文來鞏固這些成果,但由於以下幾個原因,這一過程容易出錯且效率極低:
(1)個別科學家不可能讀到其領域內已所有發表的文章,因此對其他相關研究部分視而不見;(2)期刊出版物中描述的實驗必然會省略許多細節,這使得其他人很難複製其結果並在結果基礎上進行研究;(3)單一實驗資料集的分析通常是孤立進行的,未能納入其他科學家進行的其他相關實驗的數據(因此也沒有納入有價值的資訊)。
在未來十年,人工智慧可以幫助科學家克服上述三個問題
AI 可以將這種「獨行俠」式的科學研究模式轉變為「社區科學發現」模式。特別是,人工智慧可以用來創造一種新型的電腦研究助手,幫助人類科學家克服這些問題,方法是:
這種科學實踐範式的轉變可能帶來哪些科學突破?
以下是幾個例子:
將這一機遇轉化為現實需要幾個要素:
大量實驗數據
基於文本的基礎模型的一個教訓是,它們訓練的數據越多,其能力就越強。有經驗的科學家也非常清楚,更多、更多元的實驗數據的價值。要實現科學的多個數量級的進步,並訓練我們想要的基礎模型類型,我們需要在共享和聯合分析整個科學界貢獻的各種數據集的能力方面取得非常顯著的進步。
獲取科學出版物和用電腦閱讀它們的能力
這裡機遇的一個關鍵部分是改變現在的狀態:科學家不太可能閱讀其領域中1% 的相關出版物,電腦透過閱讀100% 的出版品、總結它們及其與當前科學問題的相關性,並提供對話介面來討論其內容和意義。這不僅需要存取線上文獻,還需要 AI 研究建構這樣一個「文學助理」。
運算和網路資源
GPT 和 Gemini 等基於文字的基礎模型,因其開發過程中耗費的大量處理資源而聞名,開發不同科學領域的基礎模型也需要大量計算資源。然而,許多 AI 科學工作中的計算需求可能比訓練 GPT 等 LLM 所需的計算要小得多,因此可以透過與政府研究實驗室正在進行的類似投資來實現。
例如,AlphaFold 是一種已經徹底改變了藥物設計蛋白質分析的 AI 模型,它使用的訓練計算量比 GPT 和 Gemini 等基於文本的基礎模型要少得多。為了支援資料共享,我們需要大量的電腦網絡,但目前的互聯網已經為傳輸大型實驗資料集提供了足夠的起點。因此,與潛在收益相比,支援 AI 驅動的科學進步的硬體成本可能相當低。
新的機器學習和AI 方法
當前的機器學習方法對於發現人類無法檢查的龐大數據集中的統計規律極為有用(例如,AlphaFold 是在大量蛋白質序列及其精心測量的3D 結構上進行訓練的)。新機會的關鍵部分是將目前的機器學習方法(發現資料中的統計相關性)擴展到兩個重要方向:(1)從發現相關性轉向發現資料中的因果關係,(2)從僅從大型結構化資料集學習轉向從大型結構化資料集和大量研究文獻中學習;也就是說,像人類科學家一樣從實驗資料和其他人用自然語言表達的已發表假設和論點中學習。最近出現的 LLM 具有消化、總結和推理大型文本集合的高級能力,可以為這種新的機器學習演算法奠定基礎。
政府該做什麼?關鍵是支持上述四部分,並團結科學界探索基於人工智慧的新方法,以促進他們的研究進展。因此,政府應該考慮採取以下幾個行動:
探索特定科學領域的特定機會,資助許多科學領域的多機構研究團隊,提出願景和初步結果,展示如何使用人工智慧來顯著加速其領域的進步,以及擴大該方法所需的條件。這項工作不應以撥款的形式資助給個別機構,因為最大的進步可能來自於整合許多機構的許多科學家的數據和研究。相反,如果由許多機構的科學家團隊來執行,這可能是最有效的,他們提出的機會和方法可以激勵他們參與整個科學界。
加速創建新的實驗數據集以訓練新的基礎模型,並向整個科學家社區提供數據:
創建數據共享標準,使一位科學家能夠方便使用由不同科學家創建的實驗數據,並為每個相關科學領域的國家數據資源奠定基礎。請注意,在製定和使用此類標準方面,之前已有成功案例,可以為標準工作提供起始模板(例如,人類基因組計劃中數據共享的成功)。
為每個相關領域創建和支援資料共享網站。正如GitHub 已成為軟體開發人員貢獻、共享和重複使用軟體程式碼的首選網站一樣,為科學資料集創建一個GitHub,它既可用作資料儲存庫,又可用作搜尋引擎,用於發現與特定主題、假設或規劃實驗最相關的資料集。
研究如何建構激勵機制以實現數據共享最大化。目前,各個科學領域在個別科學家共享數據的程度,以及營利機構將其數據用於基礎科學研究的程度方面差異很大。建立一個大型、可共享的國家數據資源是人工智慧科學機會不可或缺的組成部分,建構一個令人信服的數據共享激勵結構將是成功的關鍵。
在適當的情況下,資助開發自動化實驗室(例如,用於化學、生物等實驗的機器人實驗室,可透過互聯網供眾多科學家使用),以高效地進行實驗,並以標準格式生成數據。創建此類實驗室的一個主要好處是,它們還將推動制定標準,以精確說明要遵循的實驗程序,從而提高實驗結果的可重複性。正如我們可以從資料集的 GitHub 中受益一樣,我們也可以從相關的 GitHub 中受益,以共享、修改和重複使用實驗協議的元件。
要創建新一代人工智慧工具,需要:
資助專門開發適用於科學研究方法的相關基礎 AI 研究。這應包括發展廣義的「基礎模型」,作為加速不同領域研究的工具,並加速從「獨行俠」科學到更強大的「社區科學發現」範式的轉變。
特別支持閱讀研究文獻的研究,對陳述的輸入假設進行批評和提出改進建議,並幫助科學家以與他們當前問題直接相關的方式從科學文獻中獲取結果。
特別支持將機器學習從發現相關性擴展到發現因果關係的研究,特別是在可以規劃和執行新實驗以測試因果關係假設的環境中。
特別支持對機器學習演算法的擴展研究,從僅將大數據作為輸入,到同時將大實驗數據和該領域的完整研究文獻作為輸入,以便產生由實驗數據中的統計規律以及研究文獻中討論的假設、解釋和論點共同提供的資訊。
相關內容:
以上是「機器學習之父」Mitchell 撰寫:AI 如何加速科學發展,美國如何抓住機會的詳細內容。更多資訊請關注PHP中文網其他相關文章!