目录
蛋白质-配体结合亲和力预测研究
新颖的多模态特征提取框架
SOTA 性能
消融研究
超参数分析
特征对齐分析与可视化
首页 科技周边 人工智能 SOTA性能,厦大多模态蛋白质-配体亲和力预测AI方法,首次结合分子表面信息

SOTA性能,厦大多模态蛋白质-配体亲和力预测AI方法,首次结合分子表面信息

Jul 17, 2024 pm 06:37 PM
人工智能 蛋白质 理论 药物 生物学 多模态学习

SOTA性能,厦大多模态蛋白质-配体亲和力预测AI方法,首次结合分子表面信息

编辑 | KX

在药物研发领域,准确有效地预测蛋白质与配体的结合亲和力对于药物筛选和优化至关重要。然而,目前的研究没有考虑到分子表面信息在蛋白质-配体相互作用中的重要作用。

基于此,来自厦门大学的研究人员提出了一种新颖的多模态特征提取(MFE)框架,该框架首次结合了蛋白质表面、3D 结构和序列的信息,并使用交叉注意机制进行不同模态之间的特征对齐。

实验结果表明,该方法在预测蛋白质-配体结合亲和力方面取得了最先进的性能。此外,消融研究证明了该框架内蛋白质表面信息和多模态特征对齐的有效性和必要性。

相关研究以「Surface-based multimodal protein–ligand binding affinity prediction」为题,于 6 月 21 日发布在《Bioinformatics》上。

SOTA性能,厦大多模态蛋白质-配体亲和力预测AI方法,首次结合分子表面信息

论文链接:https://academic.oup.com/bioinformatics/article/40/7/btae413/7697100
gitHub 地址:https://github.com/Sultans0fSwing/MFE

蛋白质-配体结合亲和力预测研究

作为药物发现的关键阶段,预测蛋白质-配体结合亲和力,长期以来得到了广泛的研究,这对于高效、准确的药物筛选至关重要。

传统的计算机辅助药物发现工具使用评分函数(SF)粗略估计蛋白质-配体结合亲和力,但准确性较低。分子动力学模拟方法可以提供更准确的结合亲和力估计,但通常成本高昂且耗时。

随着计算技术的发展和大规模生物数据的日益丰富,基于深度学习的方法在蛋白质-配体结合亲和力预测领域显示出巨大的潜力。

然而,目前的研究主要利用基于序列或结构的表示来预测蛋白质-配体的结合亲和力,对蛋白质-配体相互作用至关重要的蛋白质表面信息的研究相对较少。

分子表面是蛋白质结构的高级表示,它表现出化学和几何特征模式,可作为蛋白质与其他生物分子相互作用模式的指纹。因此,一些研究开始使用蛋白质表面信息来预测蛋白质-配体结合亲和力。

但现有的方法主要关注单模态数据,忽略了蛋白质的多模态信息。此外,在处理蛋白质的多模态信息时,传统方法通常以直接的方式连接来自不同模态的特征,而不考虑它们之间的异质性,这导致无法有效利用模态之间的互补性。

新颖的多模态特征提取框架

在此,研究人员提出了一种新颖的多模态特征提取 (MFE) 框架,该框架首次结合了来自蛋白质表面、3D 结构和序列的信息。

SOTA性能,厦大多模态蛋白质-配体亲和力预测AI方法,首次结合分子表面信息

图 1:MFE 框架。(来源:论文)

具体来说,研究设计了两个主要组件:蛋白质特征提取模块和多模态特征比对模块。

蛋白质特征提取模块用于从蛋白质表面、结构和序列信息中提取初始嵌入。

在多模态特征比对模块中,使用交叉注意机制实现蛋白质结构、序列嵌入和表面嵌入之间的特征比对,以获得统一且信息丰富的特征嵌入。

与目前最先进的方法相比,所提出的框架在蛋白质-配体结合亲和力预测任务上取得了最佳效果。

SOTA 性能

表 1 展示了 MFE 和其他基线模型在蛋白质-配体结合亲和力预测任务上的结果。所有模型都使用相同的训练集和验证集划分方法,并在 PDBbind 核心集(版本 2016)上进行测试。可以发现,与所有基线相比,MFE 方法实现了 SOTA 性能。

SOTA性能,厦大多模态蛋白质-配体亲和力预测AI方法,首次结合分子表面信息

消融研究

为了进一步证明不同模态特征和特征比对的有效性和必要性,研究人员进行了以下消融研究:W/O 蛋白质表面信息、W/O 蛋白质结构信息、W/O 蛋白质序列信息和无特征比对。结果如表 2 和图 2 所示。

SOTA性能,厦大多模态蛋白质-配体亲和力预测AI方法,首次结合分子表面信息

图 2:消融研究结果。(来源:论文)

结果表明,当去除表面信息时,性能会明显下降,这表明表面信息在模型中起着至关重要的作用。同样,排除结构或序列信息都会导致性能下降,而序列信息的消除会导致更明显的下降。这是因为序列信息包含了蛋白质的全局信息,这对于模型对蛋白质的全面理解至关重要。

此外,在没有特征比对的情况下,模型的性能会下降。这强调了特征比对在处理多模态数据中的重要性,因为它有助于减少不同模态特征之间的异质性,从而提高模型有效整合不同模态特征的能力。

SOTA性能,厦大多模态蛋白质-配体亲和力预测AI方法,首次结合分子表面信息

超参数分析

为了研究不同超参数对模型性能的影响,研究人员进行了以下三个实验:(i)MFE-A-6:仅使用 6 种基本原子类型来表示表面的化学特性,包括氢、碳、氮、氧、磷、硫;(ii)MFE-P-256:仅选择最靠近配体中心的 256 个表面点作为蛋白质口袋表面;(iii)MFE-P-1024:选择最靠近配体中心的 1024 个表面点作为蛋白质口袋表面。

图 3 为三种不同的超参数选择方法在蛋白质-配体结合亲和力预测任务上的结果。

SOTA性能,厦大多模态蛋白质-配体亲和力预测AI方法,首次结合分子表面信息

图 3:超参数分析。(来源:论文)

特征对齐分析与可视化

为了深入研究特征对齐对模型性能的影响,研究人员使用主成分分析 (PCA) 对测试集中的蛋白质表面、结构和序列特征进行降维和可视化分析。此方法旨在确定特征对齐是否可以减轻多模态嵌入之间的异质性。

SOTA性能,厦大多模态蛋白质-配体亲和力预测AI方法,首次结合分子表面信息

图 4:特征比对前(a)和特征比对后(b)的蛋白质表面、结构和序列嵌入降维可视化结果。(来源:论文)

研究发现,特征对齐显著增强了蛋白质表面、结构和序列嵌入之间的一致性。这是由于通过注意力机制优化了 Transformer 中的多模态特征交互,该机制计算了不同特征之间的注意力权重。这增强了模型捕获关键信息的能力,使来自不同模态的数据在特征空间中更紧密地聚集,从而减少了模型识别蛋白质-配体相互作用时的噪音和错误。

最后,研究人员总结道,「总之,通过研究蛋白质的表面,我们可以更深入地了解蛋白质如何与其他生物分子相互作用。在未来的工作中,我们将更彻底地探索蛋白质表面,以揭示它们在生物信息学中的更广泛应用。」

注:封面来自网络

以上是SOTA性能,厦大多模态蛋白质-配体亲和力预测AI方法,首次结合分子表面信息的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

字节跳动剪映推出 SVIP 超级会员:连续包年 499 元,提供多种 AI 功能 字节跳动剪映推出 SVIP 超级会员:连续包年 499 元,提供多种 AI 功能 Jun 28, 2024 am 03:51 AM

本站6月27日消息,剪映是由字节跳动旗下脸萌科技开发的一款视频剪辑软件,依托于抖音平台且基本面向该平台用户制作短视频内容,并兼容iOS、安卓、Windows、MacOS等操作系统。剪映官方宣布会员体系升级,推出全新SVIP,包含多种AI黑科技,例如智能翻译、智能划重点、智能包装、数字人合成等。价格方面,剪映SVIP月费79元,年费599元(本站注:折合每月49.9元),连续包月则为59元每月,连续包年为499元每年(折合每月41.6元)。此外,剪映官方还表示,为提升用户体验,向已订阅了原版VIP

突破传统缺陷检测的界限,\'Defect Spectrum\'首次实现超高精度丰富语义的工业缺陷检测。 突破传统缺陷检测的界限,\'Defect Spectrum\'首次实现超高精度丰富语义的工业缺陷检测。 Jul 26, 2024 pm 05:38 PM

在现代制造业中,精准的缺陷检测不仅是保证产品质量的关键,更是提升生产效率的核心。然而,现有的缺陷检测数据集常常缺乏实际应用所需的精确度和语义丰富性,导致模型无法识别具体的缺陷类别或位置。为了解决这一难题,由香港科技大学广州和思谋科技组成的顶尖研究团队,创新性地开发出了“DefectSpectrum”数据集,为工业缺陷提供了详尽、语义丰富的大规模标注。如表一所示,相比其他工业数据集,“DefectSpectrum”数据集提供了最多的缺陷标注(5438张缺陷样本),最细致的缺陷分类(125种缺陷类别

英伟达对话模型ChatQA进化到2.0版本,上下文长度提到128K 英伟达对话模型ChatQA进化到2.0版本,上下文长度提到128K Jul 26, 2024 am 08:40 AM

开放LLM社区正是百花齐放、竞相争鸣的时代,你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等许多表现优良的模型。但是,相比于以GPT-4-Turbo为代表的专有大模型,开放模型在很多领域依然还有明显差距。在通用模型之外,也有一些专精关键领域的开放模型已被开发出来,比如用于编程和数学的DeepSeek-Coder-V2、用于视觉-语言任务的InternVL

数百万晶体数据训练,解决晶体学相位问题,深度学习方法PhAI登Science 数百万晶体数据训练,解决晶体学相位问题,深度学习方法PhAI登Science Aug 08, 2024 pm 09:22 PM

编辑|KX时至今日,晶体学所测定的结构细节和精度,从简单的金属到大型膜蛋白,是任何其他方法都无法比拟的。然而,最大的挑战——所谓的相位问题,仍然是从实验确定的振幅中检索相位信息。丹麦哥本哈根大学研究人员,开发了一种解决晶体相问题的深度学习方法PhAI,利用数百万人工晶体结构及其相应的合成衍射数据训练的深度学习神经网络,可以生成准确的电子密度图。研究表明,这种基于深度学习的从头算结构解决方案方法,可以以仅2埃的分辨率解决相位问题,该分辨率仅相当于原子分辨率可用数据的10%到20%,而传统的从头算方

谷歌AI拿下IMO奥数银牌,数学推理模型AlphaProof面世,强化学习 is so back 谷歌AI拿下IMO奥数银牌,数学推理模型AlphaProof面世,强化学习 is so back Jul 26, 2024 pm 02:40 PM

对于AI来说,奥数不再是问题了。本周四,谷歌DeepMind的人工智能完成了一项壮举:用AI做出了今年国际数学奥林匹克竞赛IMO的真题,并且距拿金牌仅一步之遥。上周刚刚结束的IMO竞赛共有六道赛题,涉及代数、组合学、几何和数论。谷歌提出的混合AI系统做对了四道,获得28分,达到了银牌水平。本月初,UCLA终身教授陶哲轩刚刚宣传了百万美元奖金的AI数学奥林匹克竞赛(AIMO进步奖),没想到7月还没过,AI的做题水平就进步到了这种水平。IMO上同步做题,做对了最难题IMO是历史最悠久、规模最大、最负

PRO | 为什么基于 MoE 的大模型更值得关注? PRO | 为什么基于 MoE 的大模型更值得关注? Aug 07, 2024 pm 07:08 PM

2023年,几乎AI的每个领域都在以前所未有的速度进化,同时,AI也在不断地推动着具身智能、自动驾驶等关键赛道的技术边界。多模态趋势下,Transformer作为AI大模型主流架构的局面是否会撼动?为何探索基于MoE(专家混合)架构的大模型成为业内新趋势?大型视觉模型(LVM)能否成为通用视觉的新突破?...我们从过去的半年发布的2023年本站PRO会员通讯中,挑选了10份针对以上领域技术趋势、产业变革进行深入剖析的专题解读,助您在新的一年里为大展宏图做好准备。本篇解读来自2023年Week50

为大模型提供全新科学复杂问答基准与测评体系,UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架 为大模型提供全新科学复杂问答基准与测评体系,UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架 Jul 25, 2024 am 06:42 AM

编辑|ScienceAI问答(QA)数据集在推动自然语言处理(NLP)研究发挥着至关重要的作用。高质量QA数据集不仅可以用于微调模型,也可以有效评估大语言模型(LLM)的能力,尤其是针对科学知识的理解和推理能力。尽管当前已有许多科学QA数据集,涵盖了医学、化学、生物等领域,但这些数据集仍存在一些不足。其一,数据形式较为单一,大多数为多项选择题(multiple-choicequestions),它们易于进行评估,但限制了模型的答案选择范围,无法充分测试模型的科学问题解答能力。相比之下,开放式问答

Nature观点,人工智能在医学中的测试一片混乱,应该怎么做? Nature观点,人工智能在医学中的测试一片混乱,应该怎么做? Aug 22, 2024 pm 04:37 PM

编辑|ScienceAI基于有限的临床数据,数百种医疗算法已被批准。科学家们正在讨论由谁来测试这些工具,以及如何最好地进行测试。DevinSingh在急诊室目睹了一名儿科患者因长时间等待救治而心脏骤停,这促使他探索AI在缩短等待时间中的应用。Singh利用了SickKids急诊室的分诊数据,与同事们建立了一系列AI模型,用于提供潜在诊断和推荐测试。一项研究表明,这些模型可以加快22.3%的就诊速度,将每位需要进行医学检查的患者的结果处理速度加快近3小时。然而,人工智能算法在研究中的成功只是验证此

See all articles