迄今為止規模最大的蛋白質語言模型問世了!
一年前,DeepMind開源AlphaFold2連登Nature、Science,刷爆生物和AI學界。
一年後,Meta帶著速度快一個數量級的ESMFold來了。
不光速度快,模型還足足有150億個參數。
LeCun推文稱讚,這是Meta-FAIR蛋白質團隊的偉大新成果。
共同一作Zeming Lin透露,30億參數的大模型在256個GPU上訓練了3個星期,而ESMfold在128個GPU上用了10天。至於150億參數的版本,目前還不清楚。
他也表示,程式碼隨後肯定會開源,敬請關注!
今天,我們的主角是ESMFold,一個從蛋白質個體的序列,直接進行高準確度、端對端、原子層級結構預測的模型。
論文網址:https://www.biorxiv.org/content/10.1101/2022.07.20.500902v1
150億參數帶來的好處不必多說——透過訓練,如今的大模型可以在原子大小的精確度上預測蛋白質的三維結構。
從準確度來看,ESMFold和AlphaFold2、RoseTTAFold差不多。
但是,ESMFold推測速度比AlphaFold2快一個數量級!
一下說數量級可能不好理解三者之間速度的對比,看看下面這張圖就懂了。
雖然說AlphaFold2和RoseTTAFold在原子解析度結構預測問題上取得了突破性的成功,但它們也依賴於使用多序列比對(MSA)和類似的蛋白質結構模板來實現最佳性能。
相較之下,透過利用語言模型的內部表徵,ESMFold只用一個序列作為輸入就能產生對應的結構預測,從而大大加快了結構預測的速度。
研究人員發現,ESMFold對低複雜度序列的預測與當下最先進的模型相當。
而且,結構預測的準確性與語言模型的複雜度息息相關,也就是說,當語言模型能更好地理解序列時,便可以更好地理解結構。
目前,有數十億結構和功能未知的蛋白質序列,其中許多來自元基因組定序。
利用ESMFold,研究人員只需6小時,就能摺疊完成100萬個元基因組序列的隨機樣本。
其中很大一部分具有高置信度,並且與任何已知的結構不同(在資料庫中沒有記錄)。
研究人員認為,ESMFold可以幫助理解那些超越現有認知的蛋白質結構。
此外,由於ESMFold的預測速度比現有的模型快一個數量級,因此研究人員便可藉助ESMFold來協助填補快速增長的蛋白質序列資料庫與進展緩慢的蛋白質結構和功能資料庫之間的鴻溝。
接下來我們就來具體說Meta這款全新的ESMFold。
ESM-2是一個基於Transformer的語言模型,並使用注意力機制來學習輸入序列中成對胺基酸之間的相互作用模式。
相對於上一代模型ESM-1b,Meta對模型結構、訓練參數進行了改進,並增加了計算資源和資料。同時,相對位置嵌入的加入,使模型能夠推廣到任意長度的序列。
從結果來看,具有1.5億個參數的ESM-2模型比具有6.5億個參數的ESM-1b模型表現得更好。
此外,在結構預測的基準上,ESM-2也超過了其他的蛋白質語言模型。這種表現的提升與大型語言建模領域所建立的規律是一致的。
隨著ESM-2規模的增加,可以觀察到語言建模的精確度有很大的提升。
SMFold和AlphaFold2的一個關鍵區別是,ESMFold使用語言模型表示,消除了對明確的同源序列(以MSA的形式)作為輸入的需要。
ESMFold透過用一個處理序列的Transformer模組取代處理MSA的計算昂貴的網路模組,簡化了AlphaFold2中的Evoformer。這種簡化意味著ESMFold的速度大大提高,遠高於基於MSA的模型。
折疊主幹的輸出接下來又被一個結構模組處理,它負責輸出最終的原子級結構和預測的置信度。
研究人員將ESMFold與AlphaFold2和RoseTTAFold在CAMEO(2022年4月至2022年6月)和CASP14(2020年5月)測試集上進行比較。
當只給單一序列輸入時,ESMFold的表現比Alphafold 2好得多。
而當使用完整的管道時,AlphaFold2在CAMEO和CASP14上分別達到了88.3和84.7。 ESMFold在CAMEO上取得了與RoseTTAfold相當的準確率,其平均TM分數為82.0。
#研究人員發現,以無監督學習為目標的語言模型在一個大型的進化多樣化的蛋白質序列資料庫中訓練,能夠對蛋白質結構進行原子級的分辨率預測。
將語言模型的參數擴大到15B,就可以系統性地研究規模對蛋白質結構學習的影響。
我們看到,蛋白質結構預測的非線性曲線是模型規模的函數,並且觀察到了語言模型對序列的理解程度與結構預測之間的強烈聯繫。
ESM-2系列的模型是迄今為止訓練的最大的蛋白質語言模型,其參數僅比最近開發的最大文字模型少一個數量級。
而且,ESM-2比以前的模型有非常大的改進,即使在150M的參數下,ESM-2也比ESM-1代語言模型在6.5億的參數下捕捉到更準確的結構圖。
研究人員表示,ESMFold效能的最大驅動力是語言模型。由於語言模型的迷惑性和結構預測的準確性之間有很強的聯繫,他們發現當ESM-2能較好地理解蛋白質序列時,就可以獲得與目前最先進的模型相當的預測結果。
ESMFold獲得了準確的原子解析度結構預測,推理時間也比AlphaFold2快了一個數量級。
在實踐中,速度的優勢甚至還要更大。因為ESMFold不需要搜尋和演化相關的序列來建構MSA。
雖然說有更快的方法可以減少搜尋時間,但再怎麼減少還是可能會很長。
而推理時間的極大縮短帶來的利好不言自明——速度的提高將使繪製大型元基因組學序列資料庫的結構空間成為可能。
除了結構為基礎的工具來辨識遠端同源性和保護性之外,用ESMFold進行快速且準確的結構預測,還能在大量新序列集合的結構和功能分析中發揮重要作用。
在有限的時間內獲得數以百萬計的預測結構,有利於發現對天然蛋白質的廣度和多樣性的新認識,並能發現全新的蛋白質結構和蛋白質功能。
本文的共同一作是來自Meta AI的Zeming Lin。
根據個人主頁介紹,Zeming在紐約大學攻讀博士學位,並在Meta AI擔任研究工程師(訪問),主要負責後端基礎設施的工作。
他本碩都就讀於維吉尼亞大學,在那裡,他和Yanjun Qi大佬一起做有關機器學習應用的研究,尤其是在蛋白質結構預測方面。
感興趣的領域為深度學習、結構預測,以及資訊生物學。
以上是快了一個0! Meta祭出150億參數蛋白質大模型,碾壓AlphaFold2的詳細內容。更多資訊請關注PHP中文網其他相關文章!