「AI+物理先验知识」，浙大、中国科学院通用蛋白质-配体相互作用评分方法登Nature子刊

编辑 | X

蛋白质就像是身体中的精密锁具，而药物分子则是钥匙，只有完美契合的钥匙才能解锁治疗之门。科学家们一直在寻找高效的方法来预测这些“钥匙”和“锁”之间的匹配度，即蛋白质-配体相互作用。

然而，传统的数据驱动方法往往容易陷入「死记硬背」，记住配体和蛋白质训练数据，而不是真正学习它们之间的相互作用。

最近，浙江大学和中国科学院研究团队，提出了一种名为 EquiScore 的新型评分方法，利用异构图神经网络整合物理先验知识，并在等式变换空间中表征蛋白质-配体相互作用。

EquiScore 基于一个新数据集进行训练，该数据集采用多种数据增强策略和严格的冗余消除方案构建。

在两个大型外部测试集上，与其他 21 种方法相比，EquiScore 开始终名列前茅。当 EquiScore 与不同的对接方法一起使用时，它可以有效增强这些对接方法的筛选能力。EquiScore 在一系列结构类似物质的活性排序任务中也表现出色，表明其具有指导先导化合物优化的潜力。

最后，研究了 EquiScore 的不同可解释性水平，这可能为基于结构的药物设计提供更多见解。

该研究以「Generic protein–ligand interaction scoring by integrating physical prior knowledge and data augmentation modelling」为题，于 2024 年 6 月 6 日发布在《Nature Machine Intelligence》上。

「AI+物理先验知识」，浙大、中国科学院通用蛋白质-配体相互作用评分方法登Nature子刊

论文链接：https://www.nature.com/articles/s42256-024-00849-z

基于机器学习的评分方法

人类基因组计划之后，将基因组学的新知识转化为新药物的挑战也随之而来。近年来，蛋白质折叠算法不断取得突破，结构生物学领域取得了长足进步。而一个雄心勃勃的项目正尝试为人体内的所有蛋白质寻找匹配的药物或探针。尽管该领域已经取得了实质性进展，但在实际应用场景中开发更准确率的评分方法仍然是一项悬而未决的挑战。

随着实验蛋白质-配体相互作用数据的爆炸式增长，基于机器学习的评分方法取得了实质性进展。

机器学习模型容量的不断增加使它们能够记住整个训练数据集。同时，训练数据和测试数据之间的数据泄漏问题导致对这些模型能力的评价过于乐观

除了数据集的质量之外，影响基于机器学习的评分方法性能的另一个关键因素是有效地整合有关配体-蛋白质相互作用的物理先验信息。

EquiScore 的架构

该研究主要从两个方面来提高深度学习评分方法对未知靶标的泛化能力。

首先，研究人员使用多种数据增强策略构建了一个名为 PDBscreen 的新数据集。例如使用接近天然的配体结合姿势扩大正样本量，使用生成的高度欺骗性诱饵扩大负样本量。

其次，通过引入新类型的节点和边以及信息感知注意机制，提出了一种可以整合物理分子间相互作用的先验信息的异构图。

「AI+物理先验知识」，浙大、中国科学院通用蛋白质-配体相互作用评分方法登Nature子刊

图示：构建 PDBscreen 数据集的管道。（来源：论文）

EquiScore 是一个二元分类模型，通过输入由蛋白质口袋区域和配体构建的异构图来评估蛋白质与配体之间的结合潜力。

「AI+物理先验知识」，浙大、中国科学院通用蛋白质-配体相互作用评分方法登Nature子刊

图示：EquiScore 整体架构。

在第一步中，研究人员设计了一个异构图构建方案。除了将现有原子抽象为节点之外，还根据专家先验知识为每个芳香环添加一个虚拟节点，以更好地表示芳香体系。为了构建边，在节点之间建立了基于几何距离的边 (Egeometric) 和通过化学键建立基于结构的边 (Estructural)。

研究人员还在 Estructural 中添加了一类基于 ProLIF 计算的蛋白质-配体经验相互作用成分 (IFP) 的边，以包含有关分子间相互作用的先验物理知识。在第二步中，使用嵌入层来获得异构图上每种类型的边和节点的潜在表示。该方案可以引入其他具有明确物理意义的新节点和边，并且可以与后续的表示学习模块无缝集成。

为了充分利用来自不同节点和边的信息的归纳偏差，同时确保模型的等方差，EquiScore 层由三个子模块组成：信息感知注意模块、节点更新模块和边更新模块。

信息感知注意模块可以解释来自不同信息的相互作用，包括（1）等变几何信息、（2）化学结构信息和（3）蛋白质-配体经验相互作用成分。