「AI+物理先驗知識」，浙大、中國科學院通用蛋白質-配體交互作用評分方法登Nature子刊

編輯 | X

蛋白質就像是身體中的精密鎖具，而藥物分子則是鑰匙，只有完美契合的鑰匙才能解鎖治療之門。科學家一直在尋找高效的方法來預測這些「鑰匙」和「鎖」之間的匹配度，即蛋白質-配體相互作用。

然而，傳統的數據驅動方法往往容易陷入「死記硬背」，記住配體和蛋白質訓練數據，而不是真正學習它們之間的相互作用。

最近，浙江大學和中國科學院研究團隊，提出了一種名為EquiScore 的新型評分方法，利用異構圖神經網路整合物理先驗知識，並在等式變換空間中表徵蛋白質-配體相互作用。

EquiScore 是基於一個新資料集進行訓練，該資料集採用多種資料增強策略和嚴格的冗餘消除方案建構。

在兩個大型外部測試集上，與其他 21 種方法相比，EquiScore 開始終名列前茅。當 EquiScore 與不同的對接方法一起使用時，它可以有效增強這些對接方法的篩選能力。 EquiScore 在一系列結構類似物質的活性排序任務中也表現出色，顯示其具有指導先導化合物優化的潛力。

最後，研究了 EquiScore 的不同可解釋性水平，這可能為基於結構的藥物設計提供更多見解。

研究以「Generic protein–ligand interaction scoring by integrating physical prior knowledge and data augmentation modelling」為題，於2024 年6 月6 日發佈在《Nature Machine Intelligence》上。

「AI+物理先驗知識」，浙大、中國科學院通用蛋白質-配體交互作用評分方法登Nature子刊

論文連結：https://www.nature.com/articles/s42256-024-00849-z

#基於機器學習的評分方法

人類基因組計畫之後，將基因組學的新知識轉化為新藥物的挑戰也隨之而來。近年來，蛋白質折疊演算法不斷取得突破，結構生物學領域取得了長足進展。而一個雄心勃勃的計畫正試圖為人體內的所有蛋白質尋找相符的藥物或探針。儘管該領域已經取得了實質進展，但在實際應用情境中開發更準確率的評分方法仍然是一項懸而未決的挑戰。

隨著實驗蛋白質-配體交互作用數據的爆炸性增長，基於機器學習的評分方法取得了實質進展。

機器學習模型容量的不斷增加使它們能夠記住整個訓練資料集。同時，訓練資料和測試資料之間的資料外洩問題導致對這些模型能力的評價過於樂觀

除了資料集的品質之外，影響基於機器學習的評分方法表現的另一個關鍵因素是有效地整合有關配體-蛋白質相互作用的物理先驗資訊。

EquiScore 的架構

該研究主要從兩個面向來提高深度學習評分方法對未知標靶的泛化能力。

首先，研究人員使用多種資料增強策略建立了一個名為 PDBscreen 的新資料集。例如使用接近天然的配體結合姿勢擴大正樣本量，使用產生的高度欺騙性誘餌擴大負樣本量。

其次，透過引入新類型的節點和邊以及資訊感知注意機制，提出了一種可以整合物理分子間相互作用的先驗資訊的異構圖。

「AI+物理先驗知識」，浙大、中國科學院通用蛋白質-配體交互作用評分方法登Nature子刊

圖示：建立 PDBscreen 資料集的管道。（資料來源：論文）

EquiScore 是一個二元分類模型，透過輸入由蛋白質口袋區域和配體構建的異構圖來評估蛋白質與配體之間的結合潛力。

「AI+物理先驗知識」，浙大、中國科學院通用蛋白質-配體交互作用評分方法登Nature子刊

圖示：EquiScore 整體架構。

在第一步中，研究人員設計了一個異質圖建構方案。除了將現有原子抽象化為節點之外，還根據專家先驗知識為每個芳香環添加一個虛擬節點，以更好地表示芳香體系。為了建構邊，在節點之間建立了基於幾何距離的邊 (Egeometric) 和透過化學鍵建立基於結構的邊 (Estructural)。

研究人員也在 Estructural 中加入了一類基於 ProLIF 計算的蛋白質-配體經驗交互作用成分 (IFP) 的邊，以包含分子間相互作用的先驗物理知識。在第二步驟中，使用嵌入層來獲得異構圖上每種類型的邊和節點的潛在表示。該方案可以引入其他具有明確物理意義的新節點和邊，並且可以與後續的表示學習模組無縫整合。

為了充分利用來自不同節點和邊的資訊的歸納偏差，同時確保模型的等方差，EquiScore 層由三個子模組組成：資訊感知注意模組、節點更新模組和邊更新模組。

資訊感知注意模組可以解釋來自不同資訊的相互作用，包括（1）等變幾何資訊、（2）化學結構資訊和（3）蛋白質-配體經驗交互作用成分。