「AI+物理先驗知識」,浙大、中國科學院通用蛋白質-配體交互作用評分方法登Nature子刊

WBOY
發布: 2024-06-14 11:40:36
原創
965 人瀏覽過

「AI+物理先驗知識」,浙大、中國科學院通用蛋白質-配體交互作用評分方法登Nature子刊

編輯 | X

蛋白質就像是身體中的精密鎖具,而藥物分子則是鑰匙,只有完美契合的鑰匙才能解鎖治療之門。科學家一直在尋找高效的方法來預測這些「鑰匙」和「鎖」之間的匹配度,即蛋白質-配體相互作用。

然而,傳統的數據驅動方法往往容易陷入「死記硬背」,記住配體和蛋白質訓練數據,而不是真正學習它們之間的相互作用。

最近,浙江大學和中國科學院研究團隊,提出了一種名為EquiScore 的新型評分方法,利用異構圖神經網路整合物理先驗知識,並在等式變換空間中表徵蛋白質-配體相互作用。

EquiScore 是基於一個新資料集進行訓練,該資料集採用多種資料增強策略和嚴格的冗餘消除方案建構。

在兩個大型外部測試集上,與其他 21 種方法相比,EquiScore 開始終名列前茅。當 EquiScore 與不同的對接方法一起使用時,它可以有效增強這些對接方法的篩選能力。 EquiScore 在一系列結構類似物質的活性排序任務中也表現出色,顯示其具有指導先導化合物優化的潛力。

最後,研究了 EquiScore 的不同可解釋性水平,這可能為基於結構的藥物設計提供更多見解。

研究以「Generic protein–ligand interaction scoring by integrating physical prior knowledge and data augmentation modelling」為題,於2024 年6 月6 日發佈在《Nature Machine Intelligence》上。

「AI+物理先驗知識」,浙大、中國科學院通用蛋白質-配體交互作用評分方法登Nature子刊

論文連結:https://www.nature.com/articles/s42256-024-00849-z

#基於機器學習的評分方法

人類基因組計畫之後,將基因組學的新知識轉化為新藥物的挑戰也隨之而來。近年來,蛋白質折疊演算法不斷取得突破,結構生物學領域取得了長足進展。而一個雄心勃勃的計畫正試圖為人體內的所有蛋白質尋找相符的藥物或探針。儘管該領域已經取得了實質進展,但在實際應用情境中開發更準確率的評分方法仍然是一項懸而未決的挑戰。

隨著實驗蛋白質-配體交互作用數據的爆炸性增長,基於機器學習的評分方法取得了實質進展。

機器學習模型容量的不斷增加使它們能夠記住整個訓練資料集。同時,訓練資料和測試資料之間的資料外洩問題導致對這些模型能力的評價過於樂觀

除了資料集的品質之外,影響基於機器學習的評分方法表現的另一個關鍵因素是有效地整合有關配體-蛋白質相互作用的物理先驗資訊。

EquiScore 的架構

該研究主要從兩個面向來提高深度學習評分方法對未知標靶的泛化能力。

首先,研究人員使用多種資料增強策略建立了一個名為 PDBscreen 的新資料集。例如使用接近天然的配體結合姿勢擴大正樣本量,使用產生的高度欺騙性誘餌擴大負樣本量。

其次,透過引入新類型的節點和邊以及資訊感知注意機制,提出了一種可以整合物理分子間相互作用的先驗資訊的異構圖。

「AI+物理先驗知識」,浙大、中國科學院通用蛋白質-配體交互作用評分方法登Nature子刊

圖示:建立 PDBscreen 資料集的管道。 (資料來源:論文)

EquiScore 是一個二元分類模型,透過輸入由蛋白質口袋區域和配體構建的異構圖來評估蛋白質與配體之間的結合潛力。

「AI+物理先驗知識」,浙大、中國科學院通用蛋白質-配體交互作用評分方法登Nature子刊
「AI+物理先驗知識」,浙大、中國科學院通用蛋白質-配體交互作用評分方法登Nature子刊
圖示:EquiScore 整體架構。

在第一步中,研究人員設計了一個異質圖建構方案。除了將現有原子抽象化為節點之外,還根據專家先驗知識為每個芳香環添加一個虛擬節點,以更好地表示芳香體系。為了建構邊,在節點之間建立了基於幾何距離的邊 (Egeometric) 和透過化學鍵建立基於結構的邊 (Estructural)。

研究人員也在 Estructural 中加入了一類基於 ProLIF 計算的蛋白質-配體經驗交互作用成分 (IFP) 的邊,以包含分子間相互作用的先驗物理知識。在第二步驟中,使用嵌入層來獲得異構圖上每種類型的邊和節點的潛在表示。該方案可以引入其他具有明確物理意義的新節點和邊,並且可以與後續的表示學習模組無縫整合。

為了充分利用來自不同節點和邊的資訊的歸納偏差,同時確保模型的等方差,EquiScore 層由三個子模組組成:資訊感知注意模組、節點更新模組和邊更新模組。

資訊感知注意模組可以解釋來自不同資訊的相互作用,包括(1)等變幾何資訊、(2)化學結構資訊和(3)蛋白質-配體經驗交互作用成分。

模型效能評估

研究人員評估了產生的 EquiScore 模型的效能。

在虛擬篩選(VS)場景中,與兩個外部資料集 DEKOIS2.0 和 DUD-E 上未見蛋白質的 21 種現有評分方法相比,EquiScore 始終取得了頂級排名。

「AI+物理先驗知識」,浙大、中國科學院通用蛋白質-配體交互作用評分方法登Nature子刊

圖示:22 種評分方法在 DEKOIS2.0 上的評估。 (資料來源:論文)

「AI+物理先驗知識」,浙大、中國科學院通用蛋白質-配體交互作用評分方法登Nature子刊

圖示:22 種 DUD-E 評分方法在 AUROC、BEDROC 和 EF 的評估。 (資料來源:論文)

在先導化合物最佳化場景中,EquiScore 僅在八種不同方法中與 FEP+ 相比表現出較低的排名能力。考慮到 FEP+ 計算所需的計算費用明顯更高,EquiScore 展示了速度和準確性更均衡的優勢。

「AI+物理先驗知識」,浙大、中國科學院通用蛋白質-配體交互作用評分方法登Nature子刊

圖示:EquiScore 在 DEKOIS2.0 上對不同對接方法產生的對接姿勢進行重新評分的表現比較。 (資料來源:論文)

此外,研究發現,當應用於不同對接方法產生的姿勢時,EquiScore 表現出強大的重新評分能力,並且使用 EquiScore 重新評分可以提高所有評估方法的 VS 表現。

「AI+物理先驗知識」,浙大、中國科學院通用蛋白質-配體交互作用評分方法登Nature子刊

圖示:透過視覺化注意力分佈來解釋 EquiScore。 (資料來源:論文)

最後,研究人員分析了模型的可解釋性,發現該模型可以捕捉關鍵的分子間相互作用,證明了模型的合理性並為合理的藥物設計提供了有用的線索。

對蛋白質-配體相互作用的穩健預測將提供寶貴的機會來了解蛋白質的生物學並確定它們對未來藥物治療的影響。 EquiScore 將有助於更好地了解人類健康和疾病,並促進新藥的發現。

以上是「AI+物理先驗知識」,浙大、中國科學院通用蛋白質-配體交互作用評分方法登Nature子刊的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:jiqizhixin.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
最新問題
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板
關於我們 免責聲明 Sitemap
PHP中文網:公益線上PHP培訓,幫助PHP學習者快速成長!