「機器學習之父」Mitchell 撰寫:AI 如何加速科學發展,美國如何抓住機會
編輯 | ScienceAI
近日,卡內基美隆大學(Carnegie Mellon University)教授,有著「機器學習之父」之稱的Tom M. Mitchell 撰寫了新的AI for Science 白皮書,重點討論了「人工智慧如何加速科學發展?美國政府如何幫助實現這一目標?」這個主題。
ScienceAI 對白皮書原文進行了不改變原意的全文編譯,內容如下。
人工智慧領域最近取得了顯著進展,包括GPT、Claude 和 Gemini 等大型語言模型,因此提出了這樣一種可能性:人工智慧的一個非常積極的影響,也許是大大加速從細胞生物學到材料科學、天氣和氣候建模到神經科學等各種科學領域的研究進展。這裡我們簡單總結這個人工智慧科學機遇,以及美國政府可以做些什麼來抓住這個機會。
人工智慧與科學的機會
當今幾乎所有領域的絕大多數科學研究都可以歸類為「獨行俠」科學。
換句話說,科學家和他們的十幾名研究人員組成的研究團隊提出一個想法,進行實驗來測試它,撰寫並發表結果,也許在互聯網上分享他們的實驗數據,然後重複這個過程。
其他科學家可以透過閱讀已發表的論文來鞏固這些成果,但由於以下幾個原因,這一過程容易出錯且效率極低:
(1)個別科學家不可能讀到其領域內已所有發表的文章,因此對其他相關研究部分視而不見;(2)期刊出版物中描述的實驗必然會省略許多細節,這使得其他人很難複製其結果並在結果基礎上進行研究;(3)單一實驗資料集的分析通常是孤立進行的,未能納入其他科學家進行的其他相關實驗的數據(因此也沒有納入有價值的資訊)。
在未來十年,人工智慧可以幫助科學家克服上述三個問題
AI 可以將這種「獨行俠」式的科學研究模式轉變為「社區科學發現」模式。特別是,人工智慧可以用來創造一種新型的電腦研究助手,幫助人類科學家克服這些問題,方法是:
發現複雜數據集(包括由多個實驗室進行的許多實驗建立的數據集)中的規律,而不是對單一、規模小得多且代表性較差的資料集進行孤立的分析。透過基於超出人類能力的更大數量級的數據集進行分析,可以實現更全面、更準確的分析。 使用GPT 等人工智慧大型語言模型閱讀和消化該領域的每一篇相關出版物,從而幫助科學家不僅根據自己實驗室和其他實驗室的實驗數據形成新的假設,還可以根據已發表的研究文獻中的假設和論點形成新的假設,從而得出比沒有這種自然語言人工智慧工具時可能得出的更明智的假設。 創建“基礎模型”,透過利用實驗室和科學家收集的多種不同類型的實驗數據來訓練這些模型,從而將領域內不斷增長的知識集中到一個地方,並提供這些知識的計算機可執行模型。這些可執行的「基礎模型」可以發揮與方程式(例如 f = ma)相同的作用,即它們根據其他觀察到的量對某些量進行預測。並且,與經典的方程式不同,這些基礎模型可以捕捉數十萬個不同變數之間的經驗關係,而不是少數幾個變數。 實現新實驗設計和機器人執行的自動化或半自動化,從而加快新相關實驗的速度,提高科學實驗的可重複性。
這種科學實踐範式的轉變可能帶來哪些科學突破?
以下是幾個例子:
將針對新疾病爆發的新疫苗的開發時間和成本減少 10 倍。 加快材料科學研究,可能帶來諸如室溫超導體、將熱量轉化為電能且不產生排放的熱電材料等突破性產品。 將以前從未嘗試過的大量和多樣性的細胞生物學實驗數據結合起來,形成人類細胞功能的“基礎模型”,從而能夠在實驗室中進行體內實驗這一更昂貴的步驟之前,快速模擬許多潛在實驗的結果。 結合神經科學的實驗數據(從單一神經元行為數據到全腦fMRI 成像),在多個細節層面構建人類大腦的“基礎模型”,以前所未有的規模和多樣性整合數據,並建立一個模型,該模型可以預測大腦用來編碼不同類型的思想和情緒的神經活動,這些思想和情緒如何被不同的刺激所引起,藥物對神經活動的影響,以及不同療法治療精神障礙的有效性。 提高我們預測天氣的能力,既可以針對高度本地化的區域(例如,單一農場)定制預測,也可以擴展我們預測未來天氣的能力。
美國政府可以做些什麼來把握這個機會?
將這一機遇轉化為現實需要幾個要素:
大量實驗數據
基於文本的基礎模型的一個教訓是,它們訓練的數據越多,其能力就越強。有經驗的科學家也非常清楚,更多、更多元的實驗數據的價值。要實現科學的多個數量級的進步,並訓練我們想要的基礎模型類型,我們需要在共享和聯合分析整個科學界貢獻的各種數據集的能力方面取得非常顯著的進步。
獲取科學出版物和用電腦閱讀它們的能力
這裡機遇的一個關鍵部分是改變現在的狀態:科學家不太可能閱讀其領域中1% 的相關出版物,電腦透過閱讀100% 的出版品、總結它們及其與當前科學問題的相關性,並提供對話介面來討論其內容和意義。這不僅需要存取線上文獻,還需要 AI 研究建構這樣一個「文學助理」。
運算和網路資源
GPT 和 Gemini 等基於文字的基礎模型,因其開發過程中耗費的大量處理資源而聞名,開發不同科學領域的基礎模型也需要大量計算資源。然而,許多 AI 科學工作中的計算需求可能比訓練 GPT 等 LLM 所需的計算要小得多,因此可以透過與政府研究實驗室正在進行的類似投資來實現。
例如,AlphaFold 是一種已經徹底改變了藥物設計蛋白質分析的 AI 模型,它使用的訓練計算量比 GPT 和 Gemini 等基於文本的基礎模型要少得多。為了支援資料共享,我們需要大量的電腦網絡,但目前的互聯網已經為傳輸大型實驗資料集提供了足夠的起點。因此,與潛在收益相比,支援 AI 驅動的科學進步的硬體成本可能相當低。
新的機器學習和AI 方法
當前的機器學習方法對於發現人類無法檢查的龐大數據集中的統計規律極為有用(例如,AlphaFold 是在大量蛋白質序列及其精心測量的3D 結構上進行訓練的)。新機會的關鍵部分是將目前的機器學習方法(發現資料中的統計相關性)擴展到兩個重要方向:(1)從發現相關性轉向發現資料中的因果關係,(2)從僅從大型結構化資料集學習轉向從大型結構化資料集和大量研究文獻中學習;也就是說,像人類科學家一樣從實驗資料和其他人用自然語言表達的已發表假設和論點中學習。最近出現的 LLM 具有消化、總結和推理大型文本集合的高級能力,可以為這種新的機器學習演算法奠定基礎。
政府該做什麼?關鍵是支持上述四部分,並團結科學界探索基於人工智慧的新方法,以促進他們的研究進展。因此,政府應該考慮採取以下幾個行動:
探索特定科學領域的特定機會,資助許多科學領域的多機構研究團隊,提出願景和初步結果,展示如何使用人工智慧來顯著加速其領域的進步,以及擴大該方法所需的條件。這項工作不應以撥款的形式資助給個別機構,因為最大的進步可能來自於整合許多機構的許多科學家的數據和研究。相反,如果由許多機構的科學家團隊來執行,這可能是最有效的,他們提出的機會和方法可以激勵他們參與整個科學界。
加速創建新的實驗數據集以訓練新的基礎模型,並向整個科學家社區提供數據:
創建數據共享標準,使一位科學家能夠方便使用由不同科學家創建的實驗數據,並為每個相關科學領域的國家數據資源奠定基礎。請注意,在製定和使用此類標準方面,之前已有成功案例,可以為標準工作提供起始模板(例如,人類基因組計劃中數據共享的成功)。
為每個相關領域創建和支援資料共享網站。正如GitHub 已成為軟體開發人員貢獻、共享和重複使用軟體程式碼的首選網站一樣,為科學資料集創建一個GitHub,它既可用作資料儲存庫,又可用作搜尋引擎,用於發現與特定主題、假設或規劃實驗最相關的資料集。
研究如何建構激勵機制以實現數據共享最大化。目前,各個科學領域在個別科學家共享數據的程度,以及營利機構將其數據用於基礎科學研究的程度方面差異很大。建立一個大型、可共享的國家數據資源是人工智慧科學機會不可或缺的組成部分,建構一個令人信服的數據共享激勵結構將是成功的關鍵。
在適當的情況下,資助開發自動化實驗室(例如,用於化學、生物等實驗的機器人實驗室,可透過互聯網供眾多科學家使用),以高效地進行實驗,並以標準格式生成數據。創建此類實驗室的一個主要好處是,它們還將推動制定標準,以精確說明要遵循的實驗程序,從而提高實驗結果的可重複性。正如我們可以從資料集的 GitHub 中受益一樣,我們也可以從相關的 GitHub 中受益,以共享、修改和重複使用實驗協議的元件。
要創建新一代人工智慧工具,需要:
資助專門開發適用於科學研究方法的相關基礎 AI 研究。這應包括發展廣義的「基礎模型」,作為加速不同領域研究的工具,並加速從「獨行俠」科學到更強大的「社區科學發現」範式的轉變。
特別支持閱讀研究文獻的研究,對陳述的輸入假設進行批評和提出改進建議,並幫助科學家以與他們當前問題直接相關的方式從科學文獻中獲取結果。
特別支持將機器學習從發現相關性擴展到發現因果關係的研究,特別是在可以規劃和執行新實驗以測試因果關係假設的環境中。
特別支持對機器學習演算法的擴展研究,從僅將大數據作為輸入,到同時將大實驗數據和該領域的完整研究文獻作為輸入,以便產生由實驗數據中的統計規律以及研究文獻中討論的假設、解釋和論點共同提供的資訊。
相關內容:
以上是「機器學習之父」Mitchell 撰寫:AI 如何加速科學發展,美國如何抓住機會的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

你不需要是經濟學家也能感受到經濟的動盪。物價下跌,工作穩定性下降,每個人似乎都對自己的財務未來感到焦慮。什麼是穩定幣?穩定幣就像加密世界中的救生衣:一種設計用來保持價值穩定的數字貨幣,通常與美元或黃金等穩定資產掛鉤。與比特幣或以太坊等價格波動劇烈的加密貨幣不同,穩定幣追求穩定性。當經濟風暴來襲時,投資者自然會尋求穩定,而穩定幣恰好提供了這種避險資產——免受波動的影響。為什麼穩定幣在經濟不穩定時蓬勃發展在

目錄如何選擇加密貨幣進行短期交易?短期交易最佳加密貨幣列表比特幣雪崩索拉納狗狗幣多邊形世界幣Chainlink新興企業如何選擇加密貨幣進行短期交易?短期交易是指購買加密貨幣並持有一段時間,從幾分鐘到幾天不等。這種方法前景光明,但也存在風險,耗時較長,因為你需要持續關注市場行情。但這還不是全部;在選擇合適的加密貨幣資產時,你還應該注意以下幾點:波動性:短期交易成功的主要指標之一是高揮發性加密貨幣的價值;價值越高,價格波動越大,從而創造更

目錄 什麼是VitaInu(VINU)?什麼是VINU代幣? 2025年VINU幣價格預測VitaInu(VINU)價格預測2025-2030至2030年VitaInu(VINU)價格預測2025年VitaInu價格預測2026年VitaInu價格預測2027年VitaInu價格預測2028年VitaInu價格預測2029年VitaInu價格預測2030年VitaInu價格預測解讀VINU的市場表現

介紹去中心化金融(DeFi)正在改變用戶與區塊鏈技術的交互方式,為交易、借貸和收益創造創造無縫靈活的途徑。 Solayer(LAYER)正是這一變革的核心,它構建了一個跨多條區塊鏈連接流動性和實用性的協議。隨著DeFi的普及以及對高效跨鏈基礎設施需求的增長,Solayer正吸引著交易員、開發者和投資者的關注,他們正在尋找下一個重大機遇。本文將解釋Solayer的概念,詳細介紹其創新功能和代幣經濟學,並展望其2030年

在當今的數字經濟中,傳統金融與區塊鏈技術之間的界限開始變得模糊。人們渴望更快的支付、無邊界的交易以及對自身資金的更多掌控——而且他們渴望立即實現。 ZebecNetwork是眾多旨在通過構建可編程資金流基礎設施來滿足這一需求的項目之一。 Zebec專注於實時工資單、加密支付和去中心化系統,將自己定位為連接成熟金融實踐與新興區塊鏈解決方案的橋樑。本文概述了ZebecNetwork——它

區塊鏈技術持續改變著人們在線上交換價值、驗證信息和建立信任的方式。隨著去中心化應用在各行各業的蓬勃發展,跨多個區塊鏈確認聲明和身份的能力變得越來越重要,也越來越複雜。傳統的、依賴於中心化權威的信任模型往往不足以支撐去中心化的生態系統,因此對區塊鏈原生驗證解決方案的需求也日益增長。 SignProtocol(SIGN)通過提供一個用於跨多個區塊鍊網絡創建、驗證和管理證明的框架來應對這一挑戰。 SignProtocol旨在打造一個全鏈

Solana鏈上兩大Meme幣——MooDeng(MOODENG)、GoatseusMaximus(GOAT)昨(11)日登陸幣安「Alpha」平台後迅速翻紅,重燃投資人熱情,其中MOODENG幣價單日狂飆逾123%,一舉刷新今年以來新高。幣安Alpha主要聚焦於早期潛力幣種,通常會上架社群熱度高、有成長潛力的幣種,如今正式上線MOODENG、GOAT,不僅為這兩款Meme幣注入資金活水,更讓Solana生態再

加密貨幣市場項目隨著區塊鏈發展而不斷湧現,目的就是改變傳統金融實踐,SwissCheese就是其中一個項目。據了解,SwissCheese是一個讓用戶能夠交易通證化股票的去中心化平台,旨在增強市場的可及性並降低交易成本,為更具包容性的金融環境鋪平道路。平台的原生代幣為SWCH,主要作用就是交易、治理等。該項目上線後立即引起了投資者的關注,但僅僅了解SWCH是什麼幣種?還不能分析出SWCH值得投資嗎?結合當前數據來看,SWCH具有一定的
