Nature子刊,快10倍,基於Transformer的逆向蛋白質序列設計方法

PHPz
發布: 2024-08-05 20:33:31
原創
945 人瀏覽過

Nature子刊,快10倍,基於Transformer的逆向蛋白質序列設計方法

編輯 | 蘿蔔皮

借助深度學習的進步,蛋白質設計和工程正以前所未有的速度發展。然而,目前的模型無法在設計過程中自然地考慮非蛋白質實體。

在這裡,瑞士洛桑聯邦理工學院(EPFL)的研究人員提出了一種完全基於原子坐標和元素名稱的幾何transformer 的深度學習方法,該方法可以根據不同分子環境所施加限制的主鏈支架,預測蛋白質序列。

使用此方法,研究人員可以以高成功率生產高熱穩定性、催化活性的酵素。這有望提高蛋白質設計流程的多功能性,以實現所需的功能。

研究以「Context-aware geometric deep learning for protein sequence design」為題,於 2024 年 7 月 25 日發佈在《Nature Communications》。

Nature子刊,快10倍,基於Transformer的逆向蛋白質序列設計方法

設計蛋白質以實現功能性任務是一個具有重大生物學、醫學、生物技術和材料科學影響的挑戰。一個關鍵應用領域是蛋白質治療藥物的設計,透過客製化蛋白質來精確針對特定疾病,可能比小分子藥物更具競爭力。這種方法可能革新許多健康問題的治療方式,從自體免疫疾病到癌症,提供更有效和個人化的治療方案。

此外,設計酵素功能也是蛋白質設計的另一個重要挑戰。酵素作為天然催化劑在生物過程中扮演關鍵角色。透過設計新酶或改造現有酶,可以創造出促進自然界中罕見或不存在反應的催化劑。這對多個行業有深遠影響,包括製藥業和環保技術,例如合成複雜藥物分子或分解污染物和塑膠。

深度學習方法顯著加速了蛋白質設計的成功率和多樣性。然而,雖然目前的蛋白質設計模型可以處理多條蛋白質鏈,但在處理非蛋白質實體時表現較差,限制了其應用範圍。

為解決這個問題,EPFL 的研究團隊曾經引入了一種深度學習模型-Protein Structure Transformer(PeSTo),一種幾何 transformer 架構,作用於原子點雲。

PeSTo 結合了transformer 注意力機制,利用標量和向量狀態表示原子,可以預測幾乎任何分子與蛋白質界面的相互作用,包括蛋白質、核酸、脂類、離子、小配體、輔因子或碳水化合物。

在最新的工作中,該團隊利用該模型的獨特功能,並引入了基於 PeSTo 的蛋白質序列產生器模型 CARBonAra(Context-aware Amino acid Recovery from Backbone Atoms and heteroatoms)。

CARBonAra 基於PDB 中可用的結構資料進行獨特訓練,可預測給定主鏈支架所有位置的氨基酸置信度,這些主鏈支架可以單獨提供,也可以與任何種類和數量的幫助於推動序列設計的分子複合。

Nature子刊,快10倍,基於Transformer的逆向蛋白質序列設計方法

圖示:CARBonAra的架構以及與 SOTA 方法的比較。 (資料來源:論文)

CARBonAra 的組成與表現

CARBonAra 使用由幾何transformer 組成的深度學習模型,預測從輸入主幹支架中在蛋白質序列的每個位置找到給定氨基酸的可能性。 CARBonAra 將主鏈原子(Cα、C、N、O)的座標和元素作為輸入,並使用理想的鍵角和鍵長來添加虛擬 Cβ 原子。幾何形狀使用每個原子之間的距離和歸一化相對位移向量來描述。

幾何 transformer 運算對所有相鄰原子的相互作用進行編碼,並使用 transformer 處理標量和向量資訊並更新每個原子的狀態。最後,透過將原子狀態從原子級別匯集到殘基級別,研究人員訓練模型以位置特定評分矩陣的形式預測蛋白質序列每個位置的胺基酸置信度。

實際上,這些置信度可以被解釋為並映射到機率中,透過表徵在給定每種氨基酸類型的預測置信度的情況下正確預測的機率。

Nature子刊,快10倍,基於Transformer的逆向蛋白質序列設計方法

圖示:預測信賴分析。 (資料來源:論文)

與其他模型一樣,CARBonAra 透過使用獨熱編碼將特定胺基酸的先前序列資訊印入主鏈原子來支持自回歸預測。

最重要的是,CARBonAra 繼承了 PeSTo 僅使用元素名稱和原子坐標的能力,無需進行大量參數化,從而可以輕鬆適應各種場景。

因此,CARBonAra 可以解析和處理正在設計的蛋白質主鏈附近的任何分子實體,其中包括其他蛋白質、小分子、核酸、脂質、離子和水分子等一系列輸入。

資料集

利用 CARBonAra 固有的靈活性,研究人員能夠將 RCSB PDB 中的所有生物組裝體納入他們的訓練資料集。

這包括與其他分子實體(如離子、配體、核酸等)複合的蛋白質。訓練資料集由大約 370,000 個亞基組成,驗證資料集中還使用了另外 100,000 個亞基,所有這些亞基均來自 RCSB PDB 生物組裝體,並被註釋為最佳可能。

與先前建立的方法相比,遵循稍微更嚴格的協議,測試資料集由大約70,000 個亞基組成,與沒有共享CATH 域的訓練集不同,並且在低於30% 的序列同一性下進行過濾。

此選擇標準確保了測試的穩健性,因為它排除了訓練資料集中存在的類似折疊和序列。

Nature子刊,快10倍,基於Transformer的逆向蛋白質序列設計方法

圖示:在 GPU 上執行時分析。 (資料來源:論文)

對於從不含非蛋白質分子的骨架結構中分離蛋白質或蛋白質複合物的序列設計,CARBonAra 的表現與ProteinMPNN 和ESM-IF1 等最先進的序列預測方法相當,且運算成本具有競爭力(在GPU 上比ProteinMPNN 快約3 倍,比ESM-IF1 快10 倍)。

從主鏈結構重建蛋白質序列

此方法在從主鏈結構重建蛋白質序列時,蛋白質單體設計的序列恢復率中位數為51.3% ,二聚體設計的序列恢復率中位數為56.0%。儘管恢復率相似,但三種方法的最佳序列之間的序列同一性中位數為 54% 至 58% 不等。

此外,研究人員觀察到 CARBonAra 可以產生高品質序列,當在單序列模式下使用 AlphaFold 預測時,這些序列可以按預期折疊,TM 分數高於 0.9。

CARBonAra 在蛋白質核心處學習了更緊密的氨基酸包裝,從而導致更高的回收率並反映了對典型的埋藏氨基酸取代的較低耐受性,同時允許蛋白質表面具有更高的可變性,除非提供額外的功能或結構限制。

Nature子刊,快10倍,基於Transformer的逆向蛋白質序列設計方法

圖示:埋藏於表面的胺基酸的分析。 (資料來源:論文)

從主幹支架進行序列預測的方法主要在具有理想主幹幾何形狀的實驗數據上進行訓練,當應用於生成的主幹時會導致性能下降。在訓練過程中為幾何圖形添加雜訊可以緩解此問題。

研究人員透過將 CARBonAra 應用於分子動力學 (MD) 模擬的結構軌跡來表徵該方法的穩健性。由於主鏈構象變化和先前顯示低恢復率的病例增加,序列恢復率(53±10%)與一致預測(54±7%)沒有顯著下降。

同時,研究人員觀察到每個位置預測的可能的氨基酸數量普遍減少,這表明探索構象空間正在限制序列空間,從而使得能夠設計有針對性的結構構象。

Nature子刊,快10倍,基於Transformer的逆向蛋白質序列設計方法

圖示:主鏈構象對預測的影響。 (資料來源:論文)

具有超越蛋白質設計本身的意義

研究人員在一個主力系統(即TEM-1 絲胺酸β-內醯胺酶)上進行了實驗,展示了CARBonAra 如何處理酶工程的挑戰,設計出在高溫下折疊並保持催化活性的實際蛋白質。此外,研究人員還探索了從 CARBonAra 的輸出中採樣蛋白質序列空間的重點策略。

由於無法確定由得分最高的胺基酸產生的蛋白質序列是否具有功能性,因此需要採用取樣策略來產生可以在體外重組表達且穩定且具有功能的蛋白質。

目前為止,這尚未經過徹底測試。該團隊在此表明,適當的採樣策略不僅可以產生豐富的資訊來產生起作用的蛋白質,而且還可以產生反映在自然序列中觀察到的或透過誘變和選擇實驗採樣的自然變異的合成多序列比對。

這具有超越蛋白質設計本身的意義,特別是為了解蛋白質在生物物理學一致的蛋白質進化模型框架內如何進化打開了一扇窗戶。

從根本上來說,提高計算設計的成功率對於真正掌握這一領域非常重要,更實際的是,可以在實驗室中嘗試實際表達和純化時降低成本。

超高成功率

現在基於人工智慧的方法開始穩定下來,這成為一個重要的討論點。不同的方法和報告顯示的成功率差異很大,但通常不清楚如何評估每種方法。

Chroma 進行了非常保守的評估,將其成功率設定為 3% 左右,而 RoseTTAFold/ProteinMPNN 論文報告稱幾種蛋白質的平均成功率為 15%。

使用該研究報告的 TEM-1 β-內醯胺酶設計,成功率達 40%。同樣,TIM 桶和 NTF2 折疊的成功率也高達 40-55%,遠高於先前的平均 15%。

適合提高蛋白熱穩定性

除了直接應用於設計新蛋白質和調整蛋白質功能之外,CARBonAra 似乎也非常適合提高熱穩定性,就像其他蛋白質設計方法一樣,它們也能產生堅固、高熱穩定性的蛋白質。

這一觀察結果揭示的一個有趣方面與用於穩定製造和工業過程的酶的設計序列的知識產權有關:通常,設計的酶會以覆蓋較小但相當大的序列相似性範圍的方式受到保護。

從歷史上看,這已經足夠全面了;然而,包括 CARBonAra 在內的現代蛋白質設計方法可以設計出相似性低得多的蛋白質,這些蛋白質可以保留功能並高度穩定。

結語

展望未來,與其他蛋白質設計方法相比,CARBonAra 具有一些優勢,主要與其僅基於元素名稱和坐標的內部工作有關,不需要任何進一步的參數化或中間計算。

因此,CARBonAra 看起來比其他替代方案更靈活。因為它可以從本質上解析任何類型的分子系統,所以可以對其他類型的生物分子(例如核酸、小分子、離子,甚至水)或生物組合中未發現的分子(如材料和表面)進行訓練,前提是有足夠的數據。

總之,CARBonAra 獨特地基於結構數據,是一種概念上不同的蛋白質序列預測和設計方法,具有解決分子設計和合成生物學未來挑戰所需的額外靈活性。

論文連結:https://www.nature.com/articles/s41467-024-50571-y

以上是Nature子刊,快10倍,基於Transformer的逆向蛋白質序列設計方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:jiqizhixin.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
最新問題
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板