中国科学院团队创造了一种统一框架,用于提高酶动力学参数的预测准确性
编辑 | 萝卜皮
酶动力学参数的预测对于生物技术和工业应用中酶的设计和优化至关重要,然而目前的预测工具在各种任务上的有限性能限制了它们的实际应用。
中国科学院的研究人员最近提出了UniKP,这是一个基于预训练语言模型的统一框架,可用于预测酶动力学参数,包括酶周转数(kcat)、米氏常数(Km)和催化效率(kcat/Km),这些参数是从蛋白质序列和底物结构中获得的。
还提出了基于UniKP (EF-UniKP) 的双层框架,能够在考虑环境因素(如 pH 值和温度)的情况下,稳定地预测 kcat 值。同时,研究团队还系统地探索了四种代表性的重新加权方法,成功地降低了高价值预测任务中的预测误差。
该研究题为《UniKP: a unified framework for the prediction of enzyme kinetic parameters》,于2023年12月11日在《Nature Communications》杂志上发表。
研究酶对特定底物的催化效率是生物学中的一个重要问题,对酶的进化、代谢工程和合成生物学具有深远影响。测量kcat和Km的体外实验数据,以及最大周转率和米氏常数,可以作为衡量酶催化特定反应效率的指标,用于比较不同酶的相对催化活性。
目前,酶动力学参数的测量主要依靠实验测量,耗时、成本高、劳动强度大,导致实验测量的动力学参数值数据库很小。例如,序列数据库 UniProt 包含超过 2.3 亿条酶序列,而酶数据库 BRENDA 和 SABIO-RK 包含数万个实验测量的 kcat 值。Uniprot 标识符在这些酶数据库中的集成促进了测量参数和蛋白质序列之间的连接。然而,与酶序列的数量相比,这些连接的规模仍然小得多,限制了定向进化和代谢工程等下游应用的进展。
酶动力学参数预测框架
在这项研究中,中国科学院的研究人员提出了一种名为UniKP的新框架,它基于预训练语言模型,旨在提高预测酶动力学参数的准确性。这些参数包括kcat、Km和kcat / Km,可以根据给定的酶序列和底物结构进行预测。研究人员对16种不同的机器学习模型和2种深度学习模型进行了全面比较,并发现UniKP在预测准确性方面表现出色。该研究有望为酶动力学领域的研究和应用提供新的工具和方法。
图示:UniKP 概述。(来源:论文)
与之前最先进的模型 DLKcat 相比,UniKP 在 kcat 预测任务中表现出了卓越的性能,平均决定系数为 0.68,提高了 20%。研究人员推测,预训练模型通过使用整个数据库中的无监督信息创建易于学习的酶序列和底物结构表示,对 UniKP 的性能做出了巨大贡献。
对模型学习的分析表明,蛋白质信息具有主导作用,这可能是由于酶结构与底物结构相比的复杂性。此外,UniKP 可以有效捕获酶及其突变体之间 kcat 值的微小差异,包括实验测量的情况,这对于酶的设计和修饰至关重要。UniKP 预测值的 R^2 与 gmean 方法的 R^2 的高同一性区域和低同一性区域之间的差异证明了 UniKP 在提取更深层次的互连信息方面的能力,从而在这些任务中表现出更高的预测准确性。
两层框架 EF-UniKP
当前的大部分模型没有考虑环境因素,这是模拟真实实验条件的一个关键限制。为了解决这个问题,研究人员提出了一个两层框架 EF-UniKP,它考虑了环境因素。基于分别具有 pH 和温度信息的两个新构建的数据集,EF-UniKP 与初始 UniKP 相比显示出改进的性能。这是一个准确、高通量、独立于生物体且依赖于环境的 kcat 预测。此外,这种方法有可能扩展到包括其他因素,例如共底物和 NaCl 浓度。
图示:考虑环境因素的两层框架。(来源:论文)
然而,由于缺乏综合数据,现有模型并未考虑这些因素之间的相互作用。随着实验技术的进步,包括生物铸造实验室自动化和持续进化方法,研究人员预计酶动力学数据将激增。这种涌入不仅丰富了该领域,而且提高了预测模型的准确性。
由于 kcat 数据集的高度不平衡,导致高 kcat 值预测存在较高误差,该团队系统地探索了四种有代表性的重新加权方法来缓解这一问题。结果表明,每种方法的超参数设置对于改进高 kcat 值预测至关重要。
该团队证实了当前框架在米氏常数(Km)预测和 kcat / Km 预测方面的强通用性。UniKP 在预测 Km 值方面实现了最先进的性能,更令人印象深刻的是,在预测 kcat / Km 值方面优于当前最先进模型的综合结果。此外,研究人员基于实验测量的 kcat / Km 值以及使用 kcat / Km 数据集上的 kcat 和 Km 预测模型计算的 kcat / Km 值验证了 UniKP 框架。
值得注意的是,从 UniKP kcat / UniKP Km 得出的值与实验 kcat / Km 之间观察到的相关性相对较低(PCC = −0.01)。这种差异可能是由于构建各自模型时使用的不同数据集造成的,因此需要开发一个不同的模型来预测 kcat / Km 值。将来,随着包含 kcat 和 Km 值的统一数据集的出现,预计 kcat 和 Km 模型的计算输出将与 kcat / Km 专用模型生成的输出紧密一致。
在酶的挖掘和进化中具体应用
UniKP 在酪氨酸氨裂解酶 (TAL) 酶挖掘和定向进化中的应用,证明了其彻底改变合成生物学和生物化学研究的潜力。这项研究表明,UniKP 有效识别了高活性 TAL,并迅速提高了现有 TAL 的催化效率,RgTAL-489T 的 kcat / Km 值比野生型酶高出 3.5 倍。
此外,在考虑环境因素时,衍生框架 EF-UniKP 始终能够以极高的精度识别高活性 TAL 酶,来自 Tephrocybe rancida 的 TrTAL 的 kcat / Km 值比野生型酶高 2.6 倍。结果显示,5条序列的 kcat 和 kcat / Km 值均超过野生型酶。
通过加速酶的发现和优化过程,UniKP 有望成为推进生物催化、药物发现、代谢工程和其他依赖酶催化过程的领域的强大工具。
局限与展望
然而,当前版本的 UniKP 仍然存在一些限制。例如,虽然 UniKP 能够区分实验测量的酶及其变体的 kcat 值,但预测的 kcat 值不够准确。这可能是由于与已知蛋白质序列和底物结构的数量相比数据集不足。
虽然重新加权方法可以在一定程度上缓解由不平衡的 kcat 数据集引起的预测偏差(约 6.5% 的改进),但通过合成少数过采样技术和其他样本合成方法可以实现更显著的改进。
合成生物学的一个中心目标是开发数字细胞,它将彻底改变科学家研究生物学的方法。这项研究的一个关键先决条件是仔细确定途径内所有酶的酶参数。人工智能辅助的工具阐明了这一挑战,提供了一种预测酶动力学的高通量方法。
虽然与早期模型相比,UniKP 预测因子的误差减少了,但不准确仍然是构建精确代谢模型的重大障碍。纳入越来越多的实验确定的 kcat 和 Km 值可以提高模型的准确性。
接下来,研究人员打算结合最先进的算法,例如迁移学习、强化学习和其他小样本学习算法来有效处理不平衡数据集。并且,该团队的目标是探索更多应用,包括酶进化和生物体的全局分析。
论文链接:https://www.nature.com/articles/s41467-023-44113-1
以上是中国科学院团队创造了一种统一框架,用于提高酶动力学参数的预测准确性的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

在现代制造业中,精准的缺陷检测不仅是保证产品质量的关键,更是提升生产效率的核心。然而,现有的缺陷检测数据集常常缺乏实际应用所需的精确度和语义丰富性,导致模型无法识别具体的缺陷类别或位置。为了解决这一难题,由香港科技大学广州和思谋科技组成的顶尖研究团队,创新性地开发出了“DefectSpectrum”数据集,为工业缺陷提供了详尽、语义丰富的大规模标注。如表一所示,相比其他工业数据集,“DefectSpectrum”数据集提供了最多的缺陷标注(5438张缺陷样本),最细致的缺陷分类(125种缺陷类别

开放LLM社区正是百花齐放、竞相争鸣的时代,你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等许多表现优良的模型。但是,相比于以GPT-4-Turbo为代表的专有大模型,开放模型在很多领域依然还有明显差距。在通用模型之外,也有一些专精关键领域的开放模型已被开发出来,比如用于编程和数学的DeepSeek-Coder-V2、用于视觉-语言任务的InternVL

编辑|KX时至今日,晶体学所测定的结构细节和精度,从简单的金属到大型膜蛋白,是任何其他方法都无法比拟的。然而,最大的挑战——所谓的相位问题,仍然是从实验确定的振幅中检索相位信息。丹麦哥本哈根大学研究人员,开发了一种解决晶体相问题的深度学习方法PhAI,利用数百万人工晶体结构及其相应的合成衍射数据训练的深度学习神经网络,可以生成准确的电子密度图。研究表明,这种基于深度学习的从头算结构解决方案方法,可以以仅2埃的分辨率解决相位问题,该分辨率仅相当于原子分辨率可用数据的10%到20%,而传统的从头算方

对于AI来说,奥数不再是问题了。本周四,谷歌DeepMind的人工智能完成了一项壮举:用AI做出了今年国际数学奥林匹克竞赛IMO的真题,并且距拿金牌仅一步之遥。上周刚刚结束的IMO竞赛共有六道赛题,涉及代数、组合学、几何和数论。谷歌提出的混合AI系统做对了四道,获得28分,达到了银牌水平。本月初,UCLA终身教授陶哲轩刚刚宣传了百万美元奖金的AI数学奥林匹克竞赛(AIMO进步奖),没想到7月还没过,AI的做题水平就进步到了这种水平。IMO上同步做题,做对了最难题IMO是历史最悠久、规模最大、最负

编辑|ScienceAI基于有限的临床数据,数百种医疗算法已被批准。科学家们正在讨论由谁来测试这些工具,以及如何最好地进行测试。DevinSingh在急诊室目睹了一名儿科患者因长时间等待救治而心脏骤停,这促使他探索AI在缩短等待时间中的应用。Singh利用了SickKids急诊室的分诊数据,与同事们建立了一系列AI模型,用于提供潜在诊断和推荐测试。一项研究表明,这些模型可以加快22.3%的就诊速度,将每位需要进行医学检查的患者的结果处理速度加快近3小时。然而,人工智能算法在研究中的成功只是验证此

编辑|ScienceAI问答(QA)数据集在推动自然语言处理(NLP)研究发挥着至关重要的作用。高质量QA数据集不仅可以用于微调模型,也可以有效评估大语言模型(LLM)的能力,尤其是针对科学知识的理解和推理能力。尽管当前已有许多科学QA数据集,涵盖了医学、化学、生物等领域,但这些数据集仍存在一些不足。其一,数据形式较为单一,大多数为多项选择题(multiple-choicequestions),它们易于进行评估,但限制了模型的答案选择范围,无法充分测试模型的科学问题解答能力。相比之下,开放式问答

2023年,几乎AI的每个领域都在以前所未有的速度进化,同时,AI也在不断地推动着具身智能、自动驾驶等关键赛道的技术边界。多模态趋势下,Transformer作为AI大模型主流架构的局面是否会撼动?为何探索基于MoE(专家混合)架构的大模型成为业内新趋势?大型视觉模型(LVM)能否成为通用视觉的新突破?...我们从过去的半年发布的2023年本站PRO会员通讯中,挑选了10份针对以上领域技术趋势、产业变革进行深入剖析的专题解读,助您在新的一年里为大展宏图做好准备。本篇解读来自2023年Week50

编辑|KX在药物研发领域,准确有效地预测蛋白质与配体的结合亲和力对于药物筛选和优化至关重要。然而,目前的研究没有考虑到分子表面信息在蛋白质-配体相互作用中的重要作用。基于此,来自厦门大学的研究人员提出了一种新颖的多模态特征提取(MFE)框架,该框架首次结合了蛋白质表面、3D结构和序列的信息,并使用交叉注意机制进行不同模态之间的特征对齐。实验结果表明,该方法在预测蛋白质-配体结合亲和力方面取得了最先进的性能。此外,消融研究证明了该框架内蛋白质表面信息和多模态特征对齐的有效性和必要性。相关研究以「S
