蛋白質結構和功能的形成,很大程度上取決於側鏈原子間的相互作用,因此,精準的蛋白質側鏈預測(PSCP)是解決蛋白質結構預測和蛋白質設計難題的關鍵一環。但先前蛋白質結構預測大多聚焦於主鏈結構,側鏈結構預測始終是未完全解決的難題。
近日,分子之心許錦波團隊推出一種新的PSCP 深度架構AttnPacker,在速度、記憶體效率和整體精度方面取得大幅提升,是目前已知的最優側鏈結構預測演算法,也是全球首創的可同時進行蛋白質側鏈預測和序列設計的AI 演算法。
論文發表在《美國科學院院刊》(PNAS)上,其預訓練模型、原始碼和推理腳本都已在 Github 上開源。
蛋白質由數個胺基酸折疊而成,其結構分為主鍊和側鏈。側鏈的差異性對蛋白質的結構與功能有巨大影響,尤其是生物活性。基於對側鏈結構的清晰認知,科學家們能夠更精準地測定蛋白質三維結構,解析蛋白質 - 蛋白質之間的相互作用,並進行理性蛋白質設計。應用到藥物設計領域,科學家便能更快、更準確地找到適合藥物與受體的結合點位,甚至根據需要優化或設計結合點位;在酶優化領域,科學家可以透過對序列的優化改造,讓多個側鏈參與催化反應,達到更有效率、特異性更高的催化效果。
目前大多數蛋白質結構預測演算法主要針對主鏈的結構解析,但蛋白質側鏈結構預測還是一個未被完全突破的難題。無論是 AlphaFold2 等熱門蛋白質結構預測演算法,或是 DLPacker、RosettaPacker 等專注側鏈結構預測的演算法,準確度或速度都不盡如人意。這也為蛋白質設計帶來了限制。
傳統方法,如RosettaPacker,主要使用能量最佳化方法,先將側鏈原子的分佈分組,再針對某個特定胺基酸來搜尋側鏈的分組,尋找能量最小的組合。這些方法主要區別於研究者對旋轉異構體文庫、能量函數和能量最小化程序的選擇,準確性受限於對搜尋啟發式方法和離散抽樣程序的使用。業界也有基於深度學習的側鏈預測方法,如 DLPacker,它將 PSCP 表述為映像到映像的轉換問題,並採用了 U-net 模型結構。但預測精度和速度仍不夠理想。
方法AttnPacker 是一種端到端的預測蛋白質側鏈座標的深度學習方法。它結合模擬了側鏈相互作用,直接預測的側鏈結構在物理上更可行,具有更少的原子碰撞和更理想的鍵長和角度。
具體而言,AttnPacker 引入了一種利用 PSCP 的幾何和關係方面的深度圖轉換器架構。受 AlphaFold2 啟發,分子之心提出了位置感知三角形更新,以使用基於圖形的框架來計算三角形注意力和乘法更新,從而優化成對特徵。透過這種方法,AttnPacker 的記憶體顯著減少並擁有更高容量的模型。此外,分子之心探索了幾種 SE (3) 等變注意力機制,並提出了一種用於從 3D 點學習的等變變換器架構。
AttnPacker 运行流程。以蛋白质主链坐标和序列作为输入,并基于坐标信息导出空间特征图和等变基。特征图由不变量 graph-transformer 模块处理,然后传递给一个等变的 TFN-Transformer 输出预测的侧链坐标、每个残基的置信度分数和可选的设计序列。预测坐标经过后处理,以去除所有空间冲突,并确保理想化的几何结构。
在预测效果上,AttnPacker 对天然和非天然主链结构都显示出准确性和效率上的改进。同时保证了物理上的可行性,与理想键长和角度的偏差可以忽略不计,且产生了最小的原子空间位阻。
分子之心在 CASP13 和 CASP14 天然和非天然蛋白质主链数据集上对 AttnPacker 与目前最先进的方法 ——SCWRL4、FASPR、RosettaPacker 和 DLPacker 进行对比测试。结果显示,AttnPacker 在 CASP13 和 CASP14 天然主链上显著优于传统蛋白质侧链预测方法,平均重建 RMSD 比每个测试集上的次优方法低 18% 以上。AttnPacker 还超越了深度学习方法 DLPacker,平均 RMSD 降低了 11% 以上,同时也显著提高了侧链二面角精度。除了准确性,AttnPacker 的原子碰撞明显少于其他方法。
给出天然主链结构时,各算法在 CASP13 和 CASP14 目标蛋白上的侧链结构预测结果。星号表示平均冲突值低于天然结构 ——CASP13 为 56.0、5.9 和 0.4,CASP14 为 80.4、7.9 和 2.5。
在 CASP13 和 CASP14 非天然主链上,AttnPacker 也明显优于其他方法,原子碰撞也明显少于其他方法。
给出非天然主链结构时,各算法在 CASP13 和 CASP14 目标蛋白上的侧链结构预测结果。星号表示平均冲突值低于相应天然结构 ——CASP13 的 34.6、2.2、0.5 和 CASP14 的 40.0、2.7、0.7。
创新性地摈弃了离散的旋转异构体库以及计算上昂贵的构象搜索和采样步骤,直接结合主链 3D 几何结构来并行计算所有侧链坐标。AttnPacker 与基于深度学习的方法 DLPacker、基于传统计算方法的 RosettaPacker 相比,计算效率显著提高,减少了 100 倍以上的推理时间。
不同 PSCP 方法的时间比较。重建所有 83 个 CASP13 目标蛋白的侧链原子的相对时间。
AttnPacker 在蛋白质设计上的表现同样优秀。分子之心训练了一个 AttnPacker 变体用以协同设计,该变体可实现媲美当下最先进的方法的天然序列恢复率,同时还可生产高度精确的组装。Rosetta 模拟验证显示,AttnPacker 设计的结构通常会产生亚原生(更低的)Rosetta 能量。
用 ESMFold scTM 和 plDDT 指标对比天然蛋白质序列和 AttnPacker 生成的序列,以评估 AttnPacker 的生成质量,结果表现出强相关性。
除了效果和效率驚人之外,AttnPaker 還有一個非常實用的價值 —— 它非常易用。 AttnPaker 只需要一個蛋白質的結構檔案即可運作。相較之下,OPUS-Rota4 (28) 需要來自 DLPacker 的原子環境的體素表示、來自 trRosetta100 的邏輯、二級結構和來自 OPUS-CM 輸出的約束文件。另外,由於 AttnPacker 直接預測側鏈座標,輸出是完全可微分的,這有利於下游預測任務,例如最佳化或蛋白質 - 蛋白質相互作用。 「預測效果好、效率高、易用,這些優勢有利於 AttnPacker 在研究和工業領域的廣泛使用。」許錦波教授表示。
1、AttnPacker 是一個用於直接預測序列和側鏈座標的SE(3)等變模型,可以用於蛋白質側鏈結構預測,也可用於蛋白質序列設計,是一項開創性的工作。
2、AttnPacker 的準確性優於其他方法,且效率大幅提升,並具備極高的易用性。
以上是全球首創 :分子心開源新AI演算法,攻克蛋白質側鏈預測與序列設計難題的詳細內容。更多資訊請關注PHP中文網其他相關文章!