編輯 | 蘿蔔皮
蛋白質複合物結構預測在藥物研發、抗體設計等應用中發揮著重要作用,然而由於預測精度有限,預測結果與實驗結果經常出現不一致。
北京大學、昌平實驗室以及哈佛大學的研究團隊提出了ColabDock,這是一個通用框架,它採用深度學習結構預測模型來整合不同形式和來源的實驗約束,而無需進一步進行大規模的再訓練或微調。
ColabDock 的表現優於使用AlphaFold2 作為結構預測模型的 HADDOCK 和ClusPro,不只在具有模擬殘基和表面限制的複雜結構預測中,在藉助核磁共振化學位移擾動以及共價標記進行的結構預測中也是如此。
另外,它還可以透過模擬界面掃描限制來幫助抗體-抗原界面預測。
研究以「Integrated structure prediction of protein–protein docking with experimental restraints using ColabDock」為題,於 2024 年 8 月 5 日發佈在《Nature Machineligence🎟》。
蛋白質對接為理解生物機制提供了重要的結構資訊。儘管深度模型在蛋白質結構預測方面發展迅速,但大多數模型都是以自由對接的方式進行預測,這可能會導致實驗限制與預測結構不一致。 為了解決這個問題,北京大學、昌平實驗室等機構的研究團隊提出了用於受限複合物構象預測的通用框架——ColabDock,它是一個由稀疏實驗約束引導的蛋白質-蛋白質對接的通用框架。 透過梯度反向傳播,該方法有效地整合了實驗約束的先驗和數據驅動的蛋白質結構預測模型的能量景觀,自動搜尋滿足兩者的構象,同時容忍約束中的衝突或模糊性。 ColabDock 可以利用不同形式和來源的實驗約束,而無需進一步進行大規模重新訓練或微調。 圖示:ColabDock 的工作流程。 (資料來源:論文)此框架包含兩個階段:生成階段和預測階段。 在生成階段,ColabDock 採用了基於 AlphaFold2 開發的蛋白質設計框架 ColabDesign。在 logit 空間中最佳化輸入序列配置文件,以指導結構預測模型根據給定的實驗限制和模板生成複雜結構,同時最大化 pLDDT 和 pAE 測量。 在預測階段,根據產生的複合物結構和給定的模板預測結構。對於每個目標,ColabDock 會執行多次運行並產生不同的構象。最終構象由排序支援向量機 (SVM) 演算法選擇。效能穩健
作為概念驗證,研究者採用 AlphaFold2 作為 ColabDock 中的結構預測模型。當然,這裡也可以使用其他數據驅動的深度學習模型,例如 RoseTTAFold2 和 AF-Multimer。 研究人員以合成資料集和幾種類型的實驗限制上測試 ColabDock,包括 NMR 化學位移擾動 (CSP)、共價標記 (CL) 和模擬深度突變掃描 (DMS)。 圖示:ColabDock 在驗證集上的表現。 (資料來源:論文)ColabDock 評估了兩種類型的約束,即 1v1 和 MvN 約束。前者是殘基-殘基層級的,實例包括來自 XL-MS 的約束。後者是界面層級的,與 NMR 和 CL 實驗有關。 在合成資料集上的測試結果表明 ColabDock 取得了令人滿意的性能。此外,正如預期的那樣,隨著約束數量的增加,ColabDock 的性能也提高了。 即使只有很少的限制,ColabDock 在基準資料集和相同的框架設定上的表現也優於AF-Multimer,並且在提供更多限制的情況下收斂到更少的構象,表明有效應用了附加資訊. 圖示:在基準測試集上對 ColabDock、HADDOCK 和 ClusPro 進行比較。 (資料來源:論文)與 HADDOCK 和 ClusPro 相比,當約束品質較高時,ColabDock 的表現更為突出。在兩個實驗資料集上,無論提供的約束數量和品質如何,ColabDock 的表現仍然優於 HADDOCK 和 ClusPro。
圖示:ColabDock 在 CSP 集上的效能及限制分析。 (資料來源:論文)
最後,研究人員在抗體-抗原資料集上評估了不同對接方法的表現。 ColabDock 預測的中等或更高品質結構的比例遠高於 HADDOCK 和 ClusPro。
圖示:ColabDock、HADDOCK 和 ClusPro 在抗體-抗原基準集上的比較。 (資料來源:論文)
這表明 ColabDock 在抗體設計方面具有潛在的應用價值。並且,在新發布的無偏資料集上,ColabDock 仍然表現出與 AF-Multimer 相當甚至更好的性能。
限制與結語
ColabDock 也存在一些限制。目前,ColabDock 只能接受距離小於 22 Å 的限制,這是由 AlphaFold2 中距離圖的上限決定的。這項限制使得該模型僅適用於一小部分 XL-MS 試劑。
如果沒有基於片段的最佳化,ColabDock 只能在 NVIDIA A100 圖形處理單元 (GPU) 上處理少於 1,200 個殘基的複合物,因為記憶體有限。
此外,此方法可能非常耗時,尤其是對於大型蛋白質複合物。使用 AlphaFold2 的 bfloat16 浮點格式版本有望協助節省記憶體並加速運算。
相信未來,研究人員迭代優化之後,作為一個統一的框架,ColabDock 必將能夠幫助彌合實驗和計算蛋白質科學之間的差距。
論文連結:https://www.nature.com/articles/s42256-024-00873-z
以上是Nature子刊,北大團隊通用AI框架對蛋白-蛋白對接進行綜合結構預測,彌合實驗與計算的差距的詳細內容。更多資訊請關注PHP中文網其他相關文章!