蛋白質是生命的基石,參與幾乎所有生物過程。了解蛋白質如何相互作用對於解釋細胞功能的複雜性至關重要。
2. 新方法:配對相互作用的蛋白質序列
洛桑聯邦理工學院(EPFL)的 Anne-Florence Bitbol 團隊提出了一種配對相互作用的蛋白質序列的方法。該方法利用了在多個序列比對上訓練的蛋白質語言模型的強大功能。
3. 方法優點
此方法對於小型資料集表現良好,並且可以透過監督方法改進蛋白質複合物的結構預測。
4. 研究成果發表
該研究以「Pairing interacting protein sequences using masked language modeling」為題,於 2024 年 6 月 24 日發佈在《PNASPNAS》。
蛋白質間相互作用的預測蛋白質間的相互作用對細胞功能至關重要,它們確保了信號傳導的特定性和多蛋白複合體(如分子馬達或受體)的形成。預測蛋白質-蛋白質相互作用及其複合體結構是計算生物學和生物物理學的重要課題。
儘管 AlphaFold 等深度學習方法在蛋白質單體結構預測上取得重大進展,但對於複合體結構的預測性能仍不如同單體預測,且存在異質性。 AlphaFold 首先建構查詢蛋白序列的同源多序列比對(MSA),而 MSA 的品質對預測準確度極為關鍵。
異源多聚體的配對MSA
對於涉及多種鏈的蛋白質複合體(異源多聚體),配對MSA 能提供交互夥伴間的協同進化信息,有助於推斷鏈間接觸,但建構正確配對的MSA 是一大挑戰;尤其是在真核生物中,因存在眾多同源蛋白且非依賴於基因組鄰近性。
協同進化方法
目前,結合基因組鄰近性、近似同源性、基於系統發生的方法及協同進化策略等手段來應對這一挑戰,其中協同進化方法雖數據需求大,但在優化配對和預測複合體結構方面展現出潛力,特別是透過最大化協同演化訊號來匹配同源蛋白。
DiffPALM:一種可微分配對方法
EPFL 的Anne-Florence Bitbol 團隊開發了一種配對相互作用蛋白質序列的方法,該方法利用了在多序列比對(MSA) 上訓練的蛋白質語言模型的強大功能,例如MSA Transformer 和AlphaFold 的EvoFormer 模組。這使它能夠高度準確地理解和預測蛋白質之間的複雜相互作用。
基於這些,研究人員提出了使用基於對齊的語言模型(DiffPALM)的可微分配對,這是一種使用 MLM 預測同源詞匹配的可微分方法。
圖示:DiffPALM 在小型 HK-RR MSA 上的表現。 (資料來源:論文)DiffPALM 在從普遍存在的原核生物蛋白質資料集中提取的淺層 MSA 的困難基準測試中,它的表現遠勝於現有的協同進化方法。當提供已知的相互作用對作為範例時,DiffPALM 性能會進一步快速提高。
基於協同進化的配對方法,主要研究蛋白質序列在緊密相互作用時如何隨著時間的推移一起進化——一種蛋白質的變化可能導致其相互作用分子的變化。這是分子和細胞生物學中一個極其重要的課題,在 MSA 上訓練的蛋白質語言模型可以很好地捕捉這一點。
圖示:使用不同配對方法的 AFM 效能。 (資料來源:論文)之後,團隊將 DiffPALM 應用於真核蛋白質複合物的同源物匹配難題。為此,研究人員將 DiffPALM 配對的序列作為 AFM 的輸入。在測試的複合物中,使用 DiffPALM 在某些情況下可以顯著改善 AFM 的結構預測。它還實現了與使用基於直系同源物的配對相媲美的性能。
圖示:正例的影響、MSA 深度以及對另一對蛋白質家族的擴展。 (資料來源:論文)The applications of DiffPALM are obvious in the field of basic protein biology, but its applications extend beyond that, as it has the potential to become a powerful tool in medical research and drug development. For example, accurate prediction of protein interactions can help understand disease mechanisms and develop targeted treatments.
Researchers have made DiffPALM freely available and hope that widespread adoption by the scientific community will further advance computational biology and enable researchers to explore the complexity of protein interactions.
DiffPALM combines advanced machine learning techniques with efficient processing of complex biological data, marking a major step forward in computational biology.
It not only enhances scientists’ understanding of protein interactions, but also opens up new avenues of medical research, potentially leading to breakthroughs in disease treatment and drug development.
Paper link:
https://www.pnas.org/doi/10.1073/pnas.2311887121
Related reports:
https://phys.org/news/2024-06-ai-based-approach-protein -interaction.html
以上是精度媲美AlphaFold,EPFL的AI方法從序列中匹配蛋白質互作的詳細內容。更多資訊請關注PHP中文網其他相關文章!