一项新的人工智能应用将帮助研究人员提高药物研发能力。
该项目名为 TopoFormer,是由美国密歇根州立大学(Michigan State University)数学系 Guowei Wei 教授领导的跨学科团队开发的。
TopoFormer 将分子的三维信息转化为典型的基于人工智能的药物相互作用模型可以使用的数据,扩展了这些模型预测药物有效性的能力。
「有了人工智能,你可以让药物研发更快、更高效、更便宜。」Wei 说,他同时在生物化学和分子生物学系以及电气和计算机工程系任职。
Wei 教授解释道,在美国,开发一种药物大约需要十年时间,耗资约 20 亿美元。药物试验大约占了一半的时间,而另一半时间则用于发现新的治疗候选药物进行测试。
TopoFormer 有潜力缩短开发时间。这样一来,就可以降低药物开发成本,从而降低下游消费者的药品价格。
该研究以「Multiscale topology-enabled structure-to-sequence transformer for protein–ligand interaction predictions」为题,于 2024 年 6 月 24 日发布在《Nature Machine Intelligence》。
尽管研究人员可以使用计算机模型来辅助药物研发,但由于问题变量众多,因此存在众多局限性。这种方法允许使用各种维度的有向超边来建模简单的成对连接以外的复杂相互作用。此外,这些边的方向结合了物理和化学特性,例如电负性和电离能,从而提供比传统方法更细致入微的表示。研究人员通过用有向超边区分两个 B7C2H9 异构体证明了这种能力,展示了该方法有效区分元素构型的能力。
在研究蛋白质-配体复合物时,研究人员采用拓扑超有向图作为初始表示,并通过 PTHL 理论进一步增强,以分析其几何和拓扑特征。
从分子结构等物理系统中汲取灵感,其中零维霍奇拉普拉斯算子与定义明确的量子系统的哈密顿量的动能算子有联系,研究人员将离散类比扩展到拓扑超有向图。拉普拉斯矩阵的这些特征值提供了对拓扑对象属性的洞察,类似于物理系统的能量谱。
与传统的持久同源性相比,PTHL 方法通过分析除单纯复形之外的更广泛的结构,标志着一项重大进步。它通过持久拉普拉斯算子的非谐波谱捕获基本同源性信息和几何见解,包括贝蒂数和同伦形状演化。
分析结果显示,与传统同源性相比,它提供了更全面的表征。拉普拉斯算子的零特征值的多重性(对应于贝蒂数)证实了该方法包含条形码信息,为理解蛋白质-配体复合物提供了一个强大的框架。
图示:TopoFormer 在对接和筛选任务中的表现。(来源:论文)为了捕捉蛋白质-配体复合物中复杂的原子相互作用,包括共价力、离子力和范德华力,研究人员利用 PTHL 进行多尺度分析。该方法允许通过基于过滤参数演化拓扑序列,来检查跨尺度相互作用,从而帮助 Transformer 模型识别每个尺度对结合亲和力等属性的权重。
元素相互作用,包括氢键、范德华力和 π 堆积,是蛋白质-配体复合物稳定性和特异性的基础。为了在元素层面分析这些相互作用,研究人员在拓扑序列嵌入中引入了元素特定分析。
该方法根据蛋白质和配体中的常见重元素构建子超图,生成元素特定的拉普拉斯矩阵来编码复合物内的相互作用。该技术提取详细的物理和化学特征,增强了 Transformer 模型对蛋白质-配体相互作用中复杂动力学的理解。
结语
总而言之,TopoFormer 经过训练可以读取一种形式的信息并将其转换为另一种形式。在这种情况下,它会根据蛋白质和药物的形状获取有关它们如何相互作用的三维信息,并将其重建为当前模型可以理解的一维信息。
新模型经过数万种蛋白质-药物相互作用的训练,其中两种分子之间的每种相互作用都被记录为一段代码或一个「单词」。这些单词串在一起形成对药物-蛋白质复合物的描述,从而创建其形状的记录。
「这样,你就有了许多单词像句子一样串联起来。」Wei 说。
然后,其他预测新药相互作用的模型可以读取这些句子,并为它们提供更多背景信息。如果一种新药是一本书,TopoFormer 可以将一个粗略的故事构思变成一个完整的情节,随时可以写作。
论文链接:https://www.nature.com/articles/s42256-024-00855-1
相关报道:https://phys.org/news/2024-06-drug-discovery-ai-3d-typical.html
以上是登Nature子刊,拓扑Transformer模型进行多尺度蛋白质-配体互作预测,助力药物研发的详细内容。更多信息请关注PHP中文网其他相关文章!