Google科學家 Nature 評論:人工智慧如何更好地理解大腦
編譯| 綠蘿
2023 年11 月7 日,Google Research 資深研究科學家,Google 團隊連結組學負責人Viren Jain,在《Nature》發表了題為《人工智慧如何更好地理解大腦》(How AI could lead to a better understanding of the brain)的評論文章。
論文連結:https://www.nature.com/articles/d41586-023-03426-3
電腦可以程式模擬大腦嗎?這是數學家、理論家和實驗學家長期以來一直在問的一個問題——無論是出於創造人工智慧(AI) 的願望,還是因為只有當數學或電腦能夠重現其行為時,才能理解像大腦這樣的複雜系統。為了試圖回答這個問題,研究人員自 1920 世紀 40 年代以來一直在開發大腦神經網路的簡化模型。事實上,當今機器學習的爆炸性增長可以追溯到受生物系統啟發的早期工作。
然而,這些努力的成果現在使研究人員能夠提出一個稍微不同的問題:機器學習是否可以用來建立模擬大腦活動的計算模型?
這些發展的核心是越來越多的大腦數據。從 20 世紀 70 年代開始,神經科學家一直在製作連接組,即神經元連接和形態圖,捕捉大腦在特定時刻的靜態表示,之後,這種研究更加深入。除了這些進步之外,研究人員進行功能記錄的能力也得到了提高,這種記錄可以以單一細胞的分辨率測量神經活動隨時間的變化。同時,轉錄組學領域使研究人員能夠測量組織樣本中的基因活性,甚至繪製出該活動發生的時間和地點。
到目前為止,很少有人嘗試連接這些不同的資料來源或從同一樣本的整個大腦中同時收集它們。但隨著資料集的細節程度、大小和數量的增加,特別是對於相對簡單的模型生物的大腦,機器學習系統正在使一種新的大腦建模方法變得可行。這涉及在連接組和其他數據上訓練人工智慧程序,以重現您期望在生物系統中發現的神經活動。
計算神經科學家和其他人需要解決一些挑戰才能開始使用機器學習來建立整個大腦的模擬。但是,將傳統大腦建模技術的資訊與經過不同資料集訓練的機器學習系統相結合的混合方法可以使整個工作變得更加嚴格和資訊更豐富。
腦圖譜
繪製大腦圖譜的探索始於近半個世紀前,人們在秀麗隱桿線蟲身上進行了 15 年的艱苦研究。在過去的二十年中,自動組織切片和成像的發展使研究人員更容易獲得解剖數據,而計算和自動影像分析的進展也改變了這些數據集的分析。
現在已經為線蟲、幼蟲和成蟲果蠅的整個大腦以及小鼠和人類大腦的一小部分(分別為千分之一和百萬分之一) 生成了連接組。
迄今為止製作的解剖圖存在重大漏洞。成像方法尚無法與化學突觸連接一起大規模繪製電連接圖。研究人員主要關注神經元,儘管為神經元提供支持的非神經元膠質細胞似乎在神經系統的資訊流中發揮著至關重要的作用。關於被繪製的神經元和其他細胞中表達的基因以及存在的蛋白質,仍然有很多未知之處。
儘管如此,這類地圖已經產生了一些見解。例如,在黑腹果蠅中,連結組學使研究人員能夠確定負責攻擊性等行為的神經迴路背後的機制。大腦圖譜也揭示了果蠅如何在負責知道自己在哪裡以及如何從一個地方到達另一個地方的電路中計算資訊。在斑馬魚 (Danio rerio) 幼蟲中,連接組學幫助揭示了氣味分類、眼球位置和運動的控制以及導航背後的突觸迴路的工作原理。
最終可能產生整個小鼠大腦連接組的努力正在進行中——儘管使用目前的方法,這可能需要十年或更長時間。小鼠大腦幾乎是黑腹果蠅大腦的 1,000 倍,後者由大約 150,000 個神經元組成。
除了連接組學的所有這些進展之外,研究人員還利用單細胞和空間轉錄組學以不斷提高的準確性和特異性捕獲基因表現模式。各種技術還允許研究人員一次記錄脊椎動物整個大腦的神經活動幾個小時。就斑馬魚幼蟲大腦而言,這意味著要對近 100,000 個神經元進行記錄。這些技術包括具有螢光特性的蛋白質,這些蛋白質會隨著電壓或鈣水平的變化而變化,以及能夠以單細胞分辨率對活體大腦進行 3D 成像的顯微鏡技術。 (以這種方式進行的神經活動記錄提供的圖像不如電生理學記錄準確,但比功能性磁振造影等非侵入性方法要好得多。)
數學和物理
在嘗試模擬大腦活動模式時,科學家主要使用基於物理的方法。這需要使用真實神經元或真實神經系統部分的行為的數學描述來產生神經系統或神經系統部分的模擬。它還需要對尚未通過觀察驗證的電路方面(例如網路連接性)做出明智的猜測。
在某些情況下,猜測是廣泛的(參見“神秘模型”) 但在其他方面,單細胞和單一突觸分辨率的解剖圖幫助研究人員反駁和產生假設。
神秘模型
由於缺乏數據,很難評估某些神經網路模型是否捕捉到了真實系統中發生的情況。
備受爭議的歐洲人腦計畫於 9 月結束,其最初目標是透過計算模擬整個人腦。儘管該目標被放棄,但該計畫確實基於有限的生物測量和各種合成數據生成程序,對囓齒動物和人類大腦的部分(包括囓齒動物海馬模型中的數萬個神經元)進行了模擬。
這種方法的一個主要問題是,在缺乏詳細的解剖或功能圖的情況下,很難評估最終的模擬在多大程度上準確地捕捉了生物系統中發生的情況。
大約七十年來,神經科學家一直在完善對黑腹果蠅能夠計算運動的電路的理論描述。自 2013 年完成以來,運動偵測電路連接組以及隨後的更大的飛行連接組已經提供了詳細的電路圖,該圖支持了有關該電路如何運作的一些假設。
然而,從真實神經網路收集的數據也凸顯了解剖驅動方法的限制。
例如,20 世紀90 年代完成的神經迴路模型包含對大約30 個神經元的連接性和生理學的詳細分析,這些神經元構成螃蟹(Cancer borealis)口胃神經節(控制動物胃運動的結構)。透過測量神經元在各種情況下的活動,研究人員發現,即使對於相對較小的神經元集合,看似微妙的變化,例如引入神經調節劑(一種改變神經元和突觸特性的物質) ,也會完全改變電路的行為。這表明,即使使用連接組和其他豐富的數據集來指導和約束有關神經迴路的假設,今天的數據可能還不夠詳細,建模者無法捕捉生物系統中正在發生的情況。
這是機器學習可以提供前進方向的領域。
在連接組和其他數據的指導下優化數千甚至數十億個參數,機器學習模型可以被訓練以產生與真實神經網路行為一致的神經網路行為——使用細胞分辨率功能記錄進行測量。
這種機器學習模型可以結合來自傳統大腦建模技術的信息,例如霍奇金-赫胥黎模型(Hodgkin-Huxley model),該模型描述了神經元中的動作電位(跨膜電壓的變化)如何啟動和傳播,以及使用最佳化的參數連接圖、功能活動記錄或為整個大腦獲得的其他資料集。或者,機器學習模型可以包含「黑盒子」架構,其中幾乎不包含明確指定的生物學知識,但包含數十億或數千億參數,所有參數均經過經驗優化。
例如,研究人員可以透過將系統神經活動的預測與實際生物系統的記錄進行比較來評估此類模型。至關重要的是,當機器學習程式獲得未經訓練的資料時,他們將評估模型的預測如何進行比較——作為評估機器學習系統的標準做法。
小鼠大腦中神經元的軸突投射。 (資料來源:Adam Glaser、Jayaram Chandrashekar、Karel Svoboda、艾倫神經動力學研究所)
這種方法將使包含數千個或更多神經元的大腦建模更加嚴格。例如,研究人員將能夠評估更容易計算的更簡單的模型是否比提供更詳細的生物物理資訊的更複雜的模型能更好地模擬神經網絡,反之亦然。
機器學習已經以這種方式被用來提高對其他極其複雜的系統的理解。例如,自 1950 年代以來,天氣預測系統通常依賴精心建構的氣象現象數學模型,而現代系統則是數百名研究人員對此類模型進行迭代完善的結果。然而,在過去五年左右的時間裡,研究人員已經開發了幾種利用機器學習的天氣預測系統。例如,這些包含與壓力梯度如何驅動風速變化以及風速如何使水分穿過大氣等相關的假設較少。相反,透過機器學習優化數百萬個參數,以產生與過去天氣模式資料庫一致的模擬天氣行為。
這種做事方式確實帶來了一些挑戰。即使模型做出了準確的預測,也很難解釋它是如何做到的。此外,模型通常無法對未包含在其訓練資料中的場景進行預測。經過訓練來預測未來幾天的天氣模型很難推斷未來幾週或幾個月的預測。但在某些情況下——對於未來幾個小時的降雨預測——機器學習方法已經優於傳統方法。機器學習模型也具有實際優勢。它們使用更簡單的底層程式碼,專業氣象知識較少的科學家也可以使用它們。
一方面,對於大腦建模,這種方法可以幫助填補當前資料集中的一些空白,並減少對單個生物成分(例如單個神經元)進行更詳細測量的需要。另一方面,隨著更全面的資料集的出現,將資料合併到模型中將變得簡單。
想得更大
為了實現這個想法,需要解決一些挑戰。
機器學習程式的好壞取決於用於訓練和評估它們的資料。因此,神經科學家應該致力於從樣本的整個大腦中獲取數據集——甚至從整個身體中獲取數據集,如果這變得更加可行的話。儘管從大腦的某些部分收集數據比較容易,但如果底層數據中不存在系統的許多部分,那麼使用機器學習對高度互連的系統(例如神經網路)進行建模就不太可能生成有用的信息。
研究人員也應該努力從同一樣本的整個大腦中獲得神經連接和功能記錄的解剖圖(也許將來還可以獲得基因表現圖)。目前,任何一個群體都傾向於只專注於獲得其中之一,而不是同時獲得兩者。
由於只有302 個神經元,線蟲的神經系統可能具有足夠的硬連線,使研究人員能夠假設從一個樣本獲得的連接圖對於任何其他樣本都是相同的——儘管一些研究表明並非如此。但對於較大的神經系統,例如黑腹果蠅和斑馬魚幼蟲的神經系統,樣本之間的連接組變異非常顯著,因此應該根據從同一樣本獲取的結構和功能數據來訓練大腦模型。
目前,這只能在兩種常見的模式生物中實現。線蟲和斑馬魚幼蟲的身體是透明的,這意味著研究人員可以對生物體的整個大腦進行功能記錄,並精確定位單一神經元的活動。在進行此類記錄後,可以立即殺死動物,將其嵌入樹脂中並切片,並對神經連接進行解剖測量。然而,在未來,研究人員可以擴大可以進行此類組合數據採集的生物體範圍,例如,透過開發新的非侵入性方法(可能使用超音波)以高解析度記錄神經活動。
在同一樣本中獲得此類多模式資料集需要研究人員之間的廣泛合作、對大團隊科學的投資以及增加資助機構對更全面的努力的支持。但這種方法是有先例的,例如美國情報高級研究計劃活動的 MICrONS 項目,該項目在 2016 年至 2021 年間獲得了 1 立方毫米小鼠大腦的功能和解剖數據。
除了獲取這些數據之外,神經科學家還需要就關鍵建模目標和衡量進展的定量指標達成一致。模型的目標應該是根據過去的狀態還是整個大腦來預測單一神經元的行為?單一神經元的活動應該是關鍵指標,還是應該是數十萬個活躍神經元的百分比?同樣,什麼構成了生物系統中神經活動的準確再現?正式的、商定的基準對於比較建模方法和追蹤一段時間內的進展至關重要。
最後,為了向包括計算神經科學家和機器學習專家在內的不同社群提出大腦建模挑戰,研究人員需要向更廣泛的科學界闡明哪些建模任務是最優先的,以及應該使用哪些指標來評估模型的性能。 WeatherBench 是一個提供評估和比較天氣預報模型框架的線上平台,它提供了一個有用的範本。
關鍵技術的複雜性
有些人會質疑——這是正確的——大腦建模的機器學習方法在科學上是否有用。試著理解大腦如何運作的問題是否可以簡單地換成嘗試理解大型人工網路如何運作的問題?
然而,在涉及確定大腦如何處理和編碼感覺刺激(例如視覺和氣味)的神經科學分支中使用類似的方法是令人鼓舞的。研究人員越來越多地使用經典建模的神經網絡,其中一些生物細節被指定,並與機器學習系統結合。後者接受大量視覺或音訊資料集的訓練,以重現神經系統的視覺或聽覺能力,例如影像辨識。由此產生的網路與生物網路表現出驚人的相似性,但比真正的神經網路更容易分析和詢問。
目前,或許只需詢問當前大腦圖譜和其他工作的數據是否可以訓練機器學習模型來重現與生物系統中所見相對應的神經活動。在這裡,即使失敗也會很有趣——這表明繪圖研究必須更加深入。
以上是Google科學家 Nature 評論:人工智慧如何更好地理解大腦的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

在現代製造業中,精準的缺陷檢測不僅是確保產品品質的關鍵,更是提升生產效率的核心。然而,現有的缺陷檢測資料集常常缺乏實際應用所需的精確度和語意豐富性,導致模型無法辨識特定的缺陷類別或位置。為了解決這個難題,由香港科技大學廣州和思謀科技組成的頂尖研究團隊,創新地開發了「DefectSpectrum」資料集,為工業缺陷提供了詳盡、語義豐富的大規模標註。如表一所示,相較於其他工業資料集,「DefectSpectrum」資料集提供了最多的缺陷標註(5438張缺陷樣本),最細緻的缺陷分類(125個缺陷類別

編輯|KX時至今日,晶體學所測定的結構細節和精度,從簡單的金屬到大型膜蛋白,是任何其他方法都無法比擬的。然而,最大的挑戰——所謂的相位問題,仍然是從實驗確定的振幅中檢索相位資訊。丹麥哥本哈根大學研究人員,開發了一種解決晶體相問題的深度學習方法PhAI,利用數百萬人工晶體結構及其相應的合成衍射數據訓練的深度學習神經網絡,可以產生準確的電子密度圖。研究表明,這種基於深度學習的從頭算結構解決方案方法,可以以僅2埃的分辨率解決相位問題,該分辨率僅相當於原子分辨率可用數據的10%到20%,而傳統的從頭算方

開放LLM社群正是百花齊放、競相爭鳴的時代,你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等許多表現優良的模型。但是,相較於以GPT-4-Turbo為代表的專有大模型,開放模型在許多領域仍有明顯差距。在通用模型之外,也有一些專精關鍵領域的開放模型已被開發出來,例如用於程式設計和數學的DeepSeek-Coder-V2、用於視覺-語言任務的InternVL

對AI來說,奧數不再是問題了。本週四,GoogleDeepMind的人工智慧完成了一項壯舉:用AI做出了今年國際數學奧林匹克競賽IMO的真題,並且距拿金牌僅一步之遙。上週剛結束的IMO競賽共有六道賽題,涉及代數、組合學、幾何和數論。谷歌提出的混合AI系統做對了四道,獲得28分,達到了銀牌水準。本月初,UCLA終身教授陶哲軒剛剛宣傳了百萬美元獎金的AI數學奧林匹克競賽(AIMO進步獎),沒想到7月還沒過,AI的做題水平就進步到了這種水平。 IMO上同步做題,做對了最難題IMO是歷史最悠久、規模最大、最負

2023年,幾乎AI的每個領域都在以前所未有的速度進化,同時,AI也不斷地推動著具身智慧、自動駕駛等關鍵賽道的技術邊界。在多模態趨勢下,Transformer作為AI大模型主流架構的局面是否會撼動?為何探索基於MoE(專家混合)架構的大模型成為業界新趨勢?大型視覺模型(LVM)能否成為通用視覺的新突破? ……我們從過去的半年發布的2023年本站PRO會員通訊中,挑選了10份針對以上領域技術趨勢、產業變革進行深入剖析的專題解讀,助您在新的一年裡為大展宏圖做好準備。本篇解讀來自2023年Week50

編輯|ScienceAI問答(QA)資料集在推動自然語言處理(NLP)研究中發揮著至關重要的作用。高品質QA資料集不僅可以用於微調模型,也可以有效評估大語言模型(LLM)的能力,尤其是針對科學知識的理解和推理能力。儘管目前已有許多科學QA數據集,涵蓋了醫學、化學、生物等領域,但這些數據集仍有一些不足之處。其一,資料形式較為單一,大多數為多項選擇題(multiple-choicequestions),它們易於進行評估,但限制了模型的答案選擇範圍,無法充分測試模型的科學問題解答能力。相比之下,開放式問答

編輯|KX逆合成是藥物發現和有機合成中的關鍵任務,AI越來越多地用於加快這一過程。現有AI方法性能不盡人意,多樣性有限。在實踐中,化學反應通常會引起局部分子變化,反應物和產物之間存在很大重疊。受此啟發,浙江大學侯廷軍團隊提出將單步逆合成預測重新定義為分子串編輯任務,迭代細化目標分子串以產生前驅化合物。並提出了基於編輯的逆合成模型EditRetro,該模型可以實現高品質和多樣化的預測。大量實驗表明,模型在標準基準資料集USPTO-50 K上取得了出色的性能,top-1準確率達到60.8%。

編輯|ScienceAI基於有限的臨床數據,數百種醫療演算法已被批准。科學家們正在討論由誰來測試這些工具,以及如何最好地進行測試。 DevinSingh在急診室目睹了一名兒科患者因長時間等待救治而心臟驟停,這促使他探索AI在縮短等待時間中的應用。 Singh利用了SickKids急診室的分診數據,與同事們建立了一系列AI模型,用於提供潛在診斷和推薦測試。一項研究表明,這些模型可以加快22.3%的就診速度,將每位需要進行醫學檢查的患者的結果處理速度加快近3小時。然而,人工智慧演算法在研究中的成功只是驗證此
