隨著機器學習和量子運算的巨大進步,我們現在有了更強大的新工具,能夠以新的方式與各行業研究者合作,並從根本上加速突破性科學發現的進展。
本期Google年終總結的主題是「自然科學」,文章作者為Google研究院的傑出科學家John Platt,1989年博士畢業於加州理工大學。
自從八年前加入Google Research 以來,我有幸成為天才研究人員的社群的一員,致力於應用前沿計算技術來推動應用科學的可能性,目前團隊正在探索物理和自然科學的課題,從幫助組織全世界的蛋白質和基因組信息以造福人們的生活,到利用量子電腦提高我們對宇宙本質的理解。
生物學的非凡複雜性讓無數研究人員感到著迷,從探究大腦的奧秘、探究蛋白質的構造,再到編碼生命語言的基因組,Google一直與來自世界各地其他領先組織的科學家合作,應對連接組學(connectomics)、蛋白質功能預測和基因組學領域的重大挑戰,並使創新成果能夠為更廣泛的科學界所利用。
神經生物學
#2018年,Google開發的一個應用是探索訊息是如何透過斑馬魚大腦中的神經元路徑傳播的,提供了對斑馬魚如何參與像群集這樣的社會行為的深入觀察。
論文連結:https://www.nature.com/articles/s41592-018-0049-4
透過與馬克斯·普朗克生物智能研究所(Max Planck Institute for Biology Intelligence)的研究人員合作,研究人員們用電腦重建了一部分斑馬魚類大腦的3D 電子顯微鏡影像。
這也是在利用成像和計算管道繪製小腦中的神經元迴路方面取得的里程碑式的進展,也是連結組學領域的另一個進步。
這項工作涉及到的技術甚至可以應用到神經科學以外的領域,例如,為了解決處理大型的連接組學資料集的難題,Google的研究人員開發並發布了TensorStore,一個開源的C 和Python 軟體庫,專門用於儲存和操作n 維數據,在其他領域也適用於儲存大型數據集。
程式碼連結:https://github.com/google/tensorstore
透過比較人類語言處理和自回歸深層語言模型(DLM) ,研究人員利用機器學習闡明了人類大腦是如何執行像語言這樣與眾不同的功能。
論文連結:https://www.nature.com/articles/s41593-022-01026 -4
在這項研究中,Google與普林斯頓大學和紐約大學格羅斯曼醫學院的研究者合作,讓實驗參與者聽30分鐘的播客,同時使用皮質腦電圖記錄他們的大腦活動。
記錄結果表明,人類大腦和DLM 共享處理語言的計算原理,包括連續的下一個單字預測,依賴上下文嵌入,以及基於單字匹配的post-onset suprise計算,即可以測量人類大腦對單字的驚訝(surprise)程度,並將驚訝訊號與DLM 對單字的預測程度相關聯。
這些結果為人類大腦中的語言處理提供了新的結論,並且表明 DLM 可以用來揭示語言的神經基礎的有價值的見解。
生物化學
#機器學習也使得在理解生物序列方面取得了重大進展,研究人員利用深度學習的最新進展,從原始胺基酸序列中準確預測蛋白質功能。
論文連結:https://www.nature.com/articles/s41587-021-01179-w
#Google也與歐洲分子生物學實驗室的歐洲生物資訊研究所(EMBL-EBI)進行緊密合作,仔細評估模型的性能,並向公共蛋白質資料庫UniProt、 Pfam/interPro 和MGnify 添加了數以億計的功能標註。
論文連結:https://www.nature.com/articles/s41587-021-01179 -w.epdf
人類對蛋白質資料庫的標註可能是一個艱苦而緩慢的過程,而Google提出的機器學習方法使得標註速度實現了一個巨大的飛躍。
例如,Pfam標註增加的數量比過去十年所有其他努力的總和還要多,全世界每年訪問這些資料庫的數百萬科學家現在可以利用該標註進行研究。
雖然人類基因組的第一稿於2003年公佈,但由於定序技術的技術局限性,它並不完整。
2022年,Telomere-2-Telomere (T2T) 聯盟在解決這些先前無法獲得的區域(包括5個完整的染色體臂和近2億個新DNA 序列鹼基對)方面取得的顯著成就,這些區域對於人類生物學、進化和疾病的問題既有趣又重要。
Google的開源基因組變體caller,即DeepVariant是 T2T 聯盟使用的工具之一,以用於準備發布一個完整的30.55億鹼基對的人類基因組序列。
論文連結:https://www.nature.com/articles/nbt.4235
T2T 聯盟也正在使用Google開源的方法DeepConsensus,為Pacific Biosciences 長期閱讀定序儀器提供裝置上的錯誤修正,在T2T對全面的泛基因組資源的最新研究中,可以代表人類遺傳多樣性的廣度。
論文連結:https://www.nature.com/articles/s41587-022-01435 -7.epdf
在促進科學發現上,量子計算仍處於初級階段,但其具有很大的潛力,所以穀歌正在探索提高量子計算能力的方法,以使量子在計算成為科學發現和突破的工具。
透過與來自世界各地的物理學家合作,研究人員開始使用現有的量子電腦來創建全新的物理實驗,其中一個量子實驗問題是:當感測器測量一個物體時,需要用電腦處理來自感測器的資料。
在傳統的處理過程中,需要將感測器的資料轉換為經典資訊(classical information)後再處理。
對於量子運算來說,可以直接處理來自感測器的量子數據,將量子感測器的數據直接提供給量子演算法,而無需經過測量,相比傳統電腦會有更大的優勢。
論文連結:https://www.science.org/doi/10.1126/science.abn7293
在Google最近與多所大學的研究人員合作撰寫發表的一篇Science論文中,實驗結果表明,只要量子電腦與量子感測器直接耦合並運行一個學習演算法,量子計算可以從比經典計算少得多的實驗中提取資訊。
即使在目前還不成熟的中型量子電腦上,「量子機器學習」也可以在資料集上產生指數級的優勢。
論文連結:https://arxiv.org/abs/2112.00778
#由於實驗數據往往是科學發現的限制因素,量子機器學習演算法有可能完全釋放出量子電腦的巨大威力,更強的是,這項工作的研究結果也適用於學習量子計算的輸出,如很難抽取的量子模擬輸出。
即使沒有量子機器學習,量子電腦的一個很有前景的應用是實驗性地探索那些無法觀察或模擬的量子系統。
2022年,Quantum AI 團隊利用這種方法觀察到了第一個使用超導量子位元處於束縛態的多個微波光子的實驗證據。
論文連結:https://www.nature.com/articles/s41586-022-05348 -y
光子通常需要額外的非線性元素才能相互作用,而Google的量子電腦對這些相互作用的模擬結果出乎研究人員的意料:本來以為這些束縛態的存在依賴於脆弱的條件,但實際上卻發現它們甚至對相對強烈的擾動都是穩健的。
鑑於Google在應用量子運算取得物理學突破方面取得的初步成功,研究人員對這項技術的可能性也抱持著很大的希望,將使未來的突破性發現能夠產生與電晶體或全球定位系統的創造一樣重大的社會影響。
把量子運算當作科學工具是非常有前景的!
以上是探索自然本源!谷歌2022年終總結第七彈:「生化環材」如何吃機器學習紅利?的詳細內容。更多資訊請關注PHP中文網其他相關文章!