Nature子刊，準確率達96%，AI從序列預測蛋白-配體互作-人工智慧-PHP中文網

Nature子刊，準確率達96%，AI從序列預測蛋白-配體互作

PHPz

發布： 2024-07-11 12:56:20

原創

822 人瀏覽過

Nature子刊，準確率達96%，AI從序列預測蛋白-配體互作

編輯 | 蘿蔔皮

在藥物研發中，確定小分子配體對蛋白質的結合親和力和功能效應至關重要。目前的計算方法可以預測這些蛋白質-配體相互作用特性，但如果沒有高解析度的蛋白質結構，通常會失去準確性，並且無法預測功能效應。

莫納什大學（Monash University）和格里菲斯大學（Griffith University）的研究人員開發了PSICHIC（PhySIcoCHemICal 圖神經網絡），這是一個結合物理化學約束的框架，可直接從序列數據解碼交互作用指紋（fingerprints）。這使 PSICHIC 能夠解碼蛋白質-配體相互作用背後的機制，實現最先進的準確性和可解釋性。

在沒有結構數據的相同蛋白質-配體對上進行訓練後，PSICHIC 在結合親和力預測方面與領先的基於結構的方法性能相當，甚至超過了它們。

PSICHIC 的可解釋指紋識別了參與相互作用的蛋白質殘基和配體原子，並有助於揭示蛋白質-配體相互作用的選擇性決定因素。

本研究以「Physicochemical graph neural network for learning protein–ligand interaction fingerprints from sequence data」為題，於 2024 年 6 月 17 日發佈在《Nature MachinelienceNature Machinelience

Nature Machinegence Nature子刊，準確率達96%，AI從序列預測蛋白-配體互作 Nature Machinegence

蛋白質-配體親和力預測挑戰

在藥物發現過程中，了解小分子配體對蛋白質的結合親和力和功能效應至關重要，因為配體與特定蛋白質的選擇性相互作用決定了藥物的預期效果。

然而，目前的計算方法雖然能夠預測蛋白質-配體相互作用屬性，但在缺乏高分辨率蛋白質結構的情況下，預測準確性往往會下降，且在預測功能效應方面也存在困難。

基於序列的方法雖然在成本和資源上更具優勢（例如不需要昂貴的實驗結構確定過程），但這些方法常常面臨模式匹配中的過度自由度問題，容易導致過擬合和有限的泛化能力，從而造成與基於結構或複合物的方法之間的性能差距。

物理化學圖神經網絡

莫納什大學和格里菲斯大學的研究團隊開發了PSICHIC（物理化學圖神經網絡），這是一種遵循物理化學原理從序列數據直接解碼蛋白質-配體相互作用指紋的方法。與以往基於序列的模型不同，PSICHIC 獨特地結合了物理化學約束，以實現最先進的準確性和可解釋性。

Nature子刊，準確率達96%，AI從序列預測蛋白-配體互作作為一種基於二維序列的方法，PSICHIC 透過應用聚類演算法來產生並在二維圖上施加這些約束，從而使 PSICHIC 能夠主要適應訓練期間決定蛋白質-配體相互作用的合理基本模式。與最先進的基於結構和基於複合物的方法相媲美甚至超越了它們。

在 PDBBind v2016 和 PDBBind v2020 資料集上的實驗結果表明，PSICHIC 在多項指標上均優於其他基於序列的方法，如 TransCPI、MolTrans 和 DrugBAN 等。

圖示：

PDBBind v2016 和 PDBBind v2020 基準測試中蛋白質-配體結合親和力預測的效能統計摘要。（資料來源：論文）

具體而言：

Nature子刊，準確率達96%，AI從序列預測蛋白-配體互作

PSICHIC 顯示更低的預測誤差和更高的相關性指數，尤其在預測準確性和泛化能力方面表現突出。 PSICHIC 在功能效應預測方面實現了高達 96% 的準確率。

此外：

PSICHIC 在結合位點和關鍵配體功能基團的識別方面表現出色。
在多個蛋白質-配體複雜結構（如PDB 6K1S 和6OXV）的分析中，PSICHIC 能夠準確定位重要的結合殘基和配體功能基團，驗證了其在序列數據中直接解碼蛋白質-配體相互作用模式的能力。
此能力特別體現在其透過序列資料預測蛋白質-配體結合位點和關鍵殘基。
圖示：利用互動指紋進行虛擬篩選。（來源：論文）