蛋白质功能预测新SOTA,上海理工、牛津等基于统计的AI方法,登Nature子刊
蛋白质与其他分子相结合,促进几乎所有的基础生物活动。因此,了解蛋白质功能对于理解健康、疾病、进化和分子水平上的生物体功能至关重要。
然而,超过 2 亿种蛋白质仍未得到表征,计算方法在很大程度上依赖于蛋白质的结构信息来预测不同质量的注释。
近日,来自牛津大学、苏黎世联邦理工学院、上海理工大学和北京师范大学组成的研究团队,设计了一种基于统计的图网络方法,称为 PhiGnet,从而促进蛋白质的功能注释和功能位点的识别。
PhiGnet 不仅在性能上优于其它方法,而且即使在没有结构信息的情况下也缩小了序列-功能差距。研究结果表明,将深度学习应用于进化数据可以突出残基级别的功能位点,为解释和研究生物医学中蛋白质的现有特性和新功能提供宝贵支持。
相关研究以「Accurate prediction of protein function using statistics-informed graph networks」为题,于 8 月 4 日发布在《Nature Communications》上。
了解蛋白质功能对于理解许多关键生物活动的复杂机制至关重要,对医学、生物技术和药物开发领域具有深远的影响。
迄今为止,UniProt 数据库(6/2023)中已有超过 3.56 亿种蛋白质被测序,其中绝大多数(~80%)没有已知的功能注释。
深度学习方法在预测蛋白质 3D 结构方面取得了显著的准确性,超越了从头算方法和同源性建模等经典方法的能力。然而,准确地将功能注释分配给蛋白质仍然具有挑战性,尤其是与实验测定相比。
为了应对这些挑战,研究人员假设可以利用共同进化残基中所包含的信息来注释残基级别的功能。
牛津大学团队提出利用基于统计的图网络仅从蛋白质序列预测其功能。该方法固有地表征了进化特征,可以对执行特定功能的残基的重要性进行定量评估。
该方法利用从进化数据中获得的知识来驱动两个堆叠图卷积网络。借助所获得的知识和设计的网络架构,可以准确地为蛋白质分配功能注释,并且重要的是,可以量化每个残基相对于特定功能的重要性。
用于蛋白质功能注释的 PhiGnet
PhiGnet 方法使用基于统计的图网络来注释蛋白质功能并根据其序列识别跨物种的功能位点。
为了从进化耦合(EVC)和残基群落(RC)中吸收知识,研究人员设计了双通道架构的方法,采用堆叠图卷积网络 (GCN)。该方法专门用于为蛋白质分配功能注释,包括酶委员会 (EC) 编号和基因本体 (GO) 术语(生物过程、BP、细胞成分、CC 和分子功能、MF)。
当提供蛋白质序列时,研究使用预先训练的 ESM-1b 模型得出其嵌入。随后,将嵌入作为图节点以及 EVC 和 RC(图边)输入到双堆叠 GCN 的六个图卷积层中。这些层与两个完全连接 (FC) 层块协同工作,精心处理来自两个 GCN 的信息,最终生成一个概率张量,用于评估为蛋白质分配功能注释的可行性。
此外,使用梯度加权类激活图 (Grad-CAM) 方法得出的激活分数(activation score)用于评估每个残基在特定功能中的重要性。该分数使 PhiGnet 能够在单个残基水平上精确定位功能位点。
例如,通过计算含有丝氨酸-天冬氨酸重复序列的蛋白质 D (SdrD) 的 RC,表明功能位点的残基通过自然进化而得以保留,并且 PhiGnet 能够捕获此类信息,从而改进在残基水平上预测蛋白质功能的方法,即使在没有结构数据的情况下也是如此。
注释蛋白质功能位点
计算预测是否与实验确定的功能注释一样准确?为了解决这个问题,研究使用激活分数对每种氨基酸对蛋白质功能的贡献进行了定量检查。评估了 PhiGnet 的预测性能,并评估了九种蛋白质中残基的重要性(它们对蛋白质功能的贡献)。
- 通过计算九种蛋白质中每个残基的激活分数,并将它们与通过实验或半手动注释确定的残基进行比较。PhiGnet 在预测残基水平的重要位点方面表现出了良好的准确性(平均 ⩾ 75%),与实际的配体/离子/DNA 结合位点非常一致。PhiGnet 准确地识别出具有高激活分数的蛋白质的功能重要残基。
优于其他最先进的方法
- 为了评估 PhiGnet 的预测性能,应用该方法来推断两个基准测试集中蛋白质的功能注释(EC 编号和 GO 术语)。将 PhiGnet 与最先进的方法进行比较,包括基于比对的方法、基于深度学习的方法。比较使用了两个基本指标,包括以蛋白质为中心的 Fmax 得分和精确召回曲线下面积 (AUPR)。
图示:不同方法在不同本体和 EC 编号中的 GO 术语之间的比较。(来源:论文)
PhiGnet 展示了在两个测试集中为蛋白质分配功能注释的预测能力。它分别对 GO 术语和 EC 编号实现了 0.70 和 0.89 的平均 AUPR,以及 0.80 和 0.88 的 Fmax 分数。
总体而言,PhiGnet 在基准数据集上的表现明显优于所有监督和无监督方法。
此外,还证明了 PhiGnet 的泛化稳健性,可以测试与训练集中的蛋白质具有不同序列同一性阈值的蛋白质。在不同的最大序列同一性水平(30%、40%、50%、70% 和 95%)下,随着序列同一性的增加,PhiGnet 表现出更好的预测性能。
由进化特征驱动
进化数据在 PhiGnet 中起着重要作用,可用于预测蛋白质功能注释和识别功能位点。首先,进行了消融实验,以测试 EVC/RC 对 PhiGnet 的贡献。实验表明,PhiGnet 可以准确分配蛋白质功能注释。此外,使用 EVC 或 RC 的 PhiGnet 证明了学习一般序列功能关系的强大能力,通常比其他方法更好或一样好。
其次,进一步研究了 PhiGnet 从残基群落中已识别的功能相关残基中表征有意义特征的能力。计算了残基的激活分数以强调它们对蛋白质功能的贡献。值得注意的是,预测的残基与通过实验测定确定的功能位点的残基一致,比 RC 中的残基识别得更好。
研究表明,进化信息,特别是 Remote Homology 中包含的信息,足以指定蛋白质的功能并定量表征功能位点的残基。此外,与 Evolutionary Vector 中较低阶水平的信息相比,Remote Homology 包含更高阶水平的进化知识。同时,Remote Homology 中包含的信息对于增强 PhiGnet 在残留水平上识别功能相关位点的能力起着重要作用。
成功之处与局限
总之,PhiGnet 的更好性能可以归因于它利用了蛋白质序列的进化数据和数据的高阶模式,从而可以更深入、更准确地理解蛋白质功能。
PhiGnet 的主要成功之处在于利用统计信息图卷积神经网络,来促进对来自海量序列数据集的进化数据的分层学习。这种方法大大超越了现有的监督和无监督方法,可用于指导未来的生物和临床实验。
PhiGnet 方法的局限性包括序列多样性较低的蛋白质家族中出现的偏差/噪音。将(共同)进化信息纳入 PhiGnet 可能会影响残基群落的准确识别,特别是如果信息来自高度保守的蛋白质家族。虽然将物理提取的知识整合到 PhiGnet 中与其他方法相比取得了显著的改进,但在解释 PhiGnet 中的学习机制方面仍然存在重大挑战。
进化数据和机器学习之间的协同作用将为准确确定和设计蛋白质的生物物理特性铺平道路。
以上是蛋白质功能预测新SOTA,上海理工、牛津等基于统计的AI方法,登Nature子刊的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

使用C 中的chrono库可以让你更加精确地控制时间和时间间隔,让我们来探讨一下这个库的魅力所在吧。C 的chrono库是标准库的一部分,它提供了一种现代化的方式来处理时间和时间间隔。对于那些曾经饱受time.h和ctime折磨的程序员来说,chrono无疑是一个福音。它不仅提高了代码的可读性和可维护性,还提供了更高的精度和灵活性。让我们从基础开始,chrono库主要包括以下几个关键组件:std::chrono::system_clock:表示系统时钟,用于获取当前时间。std::chron

DMA在C 中是指DirectMemoryAccess,直接内存访问技术,允许硬件设备直接与内存进行数据传输,不需要CPU干预。1)DMA操作高度依赖于硬件设备和驱动程序,实现方式因系统而异。2)直接访问内存可能带来安全风险,需确保代码的正确性和安全性。3)DMA可提高性能,但使用不当可能导致系统性能下降。通过实践和学习,可以掌握DMA的使用技巧,在高速数据传输和实时信号处理等场景中发挥其最大效能。

在MySQL中,添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column,删除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段时,需指定位置以优化查询性能和数据结构;删除字段前需确认操作不可逆;使用在线DDL、备份数据、测试环境和低负载时间段修改表结构是性能优化和最佳实践。

C 在实时操作系统(RTOS)编程中表现出色,提供了高效的执行效率和精确的时间管理。1)C 通过直接操作硬件资源和高效的内存管理满足RTOS的需求。2)利用面向对象特性,C 可以设计灵活的任务调度系统。3)C 支持高效的中断处理,但需避免动态内存分配和异常处理以保证实时性。4)模板编程和内联函数有助于性能优化。5)实际应用中,C 可用于实现高效的日志系统。

数字虚拟币交易平台top10分别是:1. Binance,2. OKX,3. Coinbase,4. Kraken,5. Huobi Global,6. Bitfinex,7. KuCoin,8. Gemini,9. Bitstamp,10. Bittrex,这些平台均提供高安全性和多种交易选项,适用于不同用户需求。

在C 中测量线程性能可以使用标准库中的计时工具、性能分析工具和自定义计时器。1.使用库测量执行时间。2.使用gprof进行性能分析,步骤包括编译时添加-pg选项、运行程序生成gmon.out文件、生成性能报告。3.使用Valgrind的Callgrind模块进行更详细的分析,步骤包括运行程序生成callgrind.out文件、使用kcachegrind查看结果。4.自定义计时器可灵活测量特定代码段的执行时间。这些方法帮助全面了解线程性能,并优化代码。

交易所内置量化工具包括:1. Binance(币安):提供Binance Futures量化模块,低手续费,支持AI辅助交易。2. OKX(欧易):支持多账户管理和智能订单路由,提供机构级风控。独立量化策略平台有:3. 3Commas:拖拽式策略生成器,适用于多平台对冲套利。4. Quadency:专业级算法策略库,支持自定义风险阈值。5. Pionex:内置16 预设策略,低交易手续费。垂直领域工具包括:6. Cryptohopper:云端量化平台,支持150 技术指标。7. Bitsgap:

如何实现鼠标滚动事件穿透效果?在我们浏览网页时,经常会遇到一些特别的交互设计。比如在deepseek官网上,�...
