准确率 >98%,基于电子密度的 GPT 用于化学研究,登 Nature 子刊
编辑 | 紫罗
可合成分子的化学空间是非常广阔的。有效地探索这个领域需要依赖计算筛选技术,比如深度学习,以便快速地发现各种有趣的化合物。
将分子结构转换为数字表示形式,并开发相应算法生成新的分子结构是进行化学发现的关键。
最近,英国格拉斯哥大学的研究团队提出了一种基于电子密度训练的机器学习模型,用于生成主客体 binders。这种模型能够以简化分子线性输入规范(SMILES)格式读取数据,准确率高达98%,从而实现对分子在二维空间的全面描述。
通过变分自编码器生成主客体系统的电子密度和静电势的三维表示,然后通过梯度下降优化客体的生成。最后,利用Transformer将客体转化为SMILES,实现了对客体结构的有效表示和转换。
模型成功地应用于已建立的分子主体系统,葫芦脲和金属有机笼,结果发现了 9 个先前验证的 CB[6] 客体和 7 个未报告的客体,并发现了 4 个未报告的 客体。
该研究以《Electron density-based GPT for optimization and suggestion of host–guest binders》为题,于 2024 年 3 月 8 日发表在《Nature Computational Science》上。
当前主客体化学研究费力且昂贵
字符串,例如 SMILES,分子以「单词」表示,例如「C1C=C1」(环丙烯),是最广泛的分子数字表示形式之一。使用最先进的自然语言处理,这些表示与 AI 技术直接兼容,例如循环神经网络或 Transformer 模型。
将分子表示为 3D 体积(volume)的优点是可以应用最新的 AI 技术,例如卷积神经网络。到目前为止,3D 体积作为分子描述符的大多数应用都集中在预测特性或从头药物设计上。然而,由于缺乏有效的方法将这些体积与清晰的分子结构相关联,目前使用 3D 体积作为分子描述符受到阻碍。
在过去的 40 年里,由于分子 containers(中空有机分子或中空超分子结构)倾向于通过将分子与空腔中的体相隔离来改变分子的化学和物理性质,因此主客体系统得到了越来越多的研究。主客体系统具有广泛的应用,从催化到生物医学工程、材料科学和反应分子的稳定。
葫芦脲(CB[n])和金属有机笼是最成功的分子 containers 设计之一。尽管主客体化学已经取得了显著的成就,但现有系统中未报道的客体的发现或新的主客体系统的优化,仍然是一个费力且昂贵的迭代过程,阻碍了科学进步的步伐。
一种基于电子密度训练的机器学习模型
在此,研究证明,将主体分子表示为 3D 体积(即,用静电势修饰的电子密度)可以通过计算机辅助发现该主体的客体,而无需了解主体的化学结构之外的主客体系统。
在此过程中,研究人员建立了一个 Transformer 模型,可以通过训练将 3D 体积分子描述符有效地转换为 SMILES 表示,从而生成专业化学家可用的分子结构。
研究还发现,通过用静电势数据修饰分子的电子密度,可以将分子有效地表示为 3D 体积,并且这两个特征足以通过使用自回归采样方案优化 3D 描述符之间的体积形状和电荷相互作用来发现主体的客体分子。

Transformer 模型完美地预测了其 SMILES 表示,准确度为 98.125%。单个 token 的预测准确率为 99.114%。Transformer 的解码器也可以被隔离为纯生成模型,如 GPT。
工作流程概述
计算机辅助发现葫芦脲 CB[6] 和金属有机笼 的实验验证客体需要一个双层工作流程。首先,设计了一个计算机工作流程来为这两个主体生成潜在客体分子的虚拟库。然后建立了体外工作流程,其中包括由化学专家从这些虚拟库中选择最有希望的客体候选物进行实验测试。
CB[6] 和 客体分子的计算机生成是通过上图所示的工作流程实现的,该工作流程包括以下步骤:
(1)3D 电子密度体积训练集源自公开的 QM9 数据集中的分子。然后,通过使用变分自编码器(VAE)对这个 3D 电子密度体积训练集进行建模,创建了一个
「分子生成器」,从而允许生成超出 QM9 数据集派生的 3D 电子密度体积。该 VAE 分子生成器的工作原理是将 3D 电子密度体积编码到一维 (1D) 潜在空间中,然后通过从该 1D 潜在空间进行解码来生成与分子相对应的 3D 电子密度体积。有趣的是,这种方法只能产生化学上合理的分子。
(2)VAE 分子生成器和梯度下降优化算法用于为给定的主体分子生成客体分子库(以 3D 电子密度体积的形式)。客体分子是通过最小化主体和客体电子密度之间的重叠,同时优化它们的静电相互作用而产生的。
(3)由于人类操作员将 3D 电子密度体积转换为化学可解释的结构可能具有挑战性,因此训练了 Transformer 模型将这些体积转换为 SMILES 表示,以一种更容易被专业化学家理解的格式捕获描述分子所需的所有必要信息。在通过计算机模拟生成 CB[6] 和 的潜在客体分子后,建立了体外工作流程来对最有希望的候选分子进行实验测试。
下面描述了所使用的实验过程。
(1) 由于其计算机工作流程生成的 CB[6] 和 的客体由化学专家进行分类以进行实验测试。有希望进行测试的客体是根据其与 CB[6] 或
的已知客体的结构相似性、专业化学家的直觉及其商业可用性来选择的。
(2)采用直接滴定法测定 CB[6] 或
的亲和力。值得注意的是,在计算机中生成的客体包含先前已知与主体(或密切相关)结合的分子和无视专家直觉的分子的混合物。
两个常见主客体系统的实验验证
研究人员通过实验验证了其工作流程,为两个两个常见的主客体系统:葫芦脲(CB[n])和金属有机笼,成了文献验证和未报告的客体。
算法为 CB[6] 生成了 9 个先前已知的客体。还确定了 CB[6] 的 7 个潜在新客体,化学专家认为值得进行实验测试。CB[6] 对这些新客体的亲和力通过在 HCO2H/H2O 1:1v/v 中直接 滴定来评估。
在所有 7 种情况下,都观察到主客体系统的一组信号,表明该系统在 NMR 时间尺度上进行快速交换。络合后,客体分子的脂肪链共振向上场移动,表明它们被封装在 CB[6] 腔内。发现 与 CB[6] 的缔合常数遵循先前建立的趋势,范围从 13.5 M^−1 到 5,470 M^−1。

对于 ,优化算法仅生成未知的客体分子,四种潜在的未报告客体与 [Pd214](BArF)4 之间的结合强度通过 CD2Cl2 中的直接
滴定进行测试。在所有四种情况中,客体对 [Pd214](BArF)4 的亲和力与先前报道的 CD2Cl2 中「小型中性客体」的亲和力较低范围一致(Ka 从 44 M^-1 到 529 M^−1)。
虽然研究重点是使用 SMILES 表示法来表示分子,但也测试了其他类似的格式,例如自引用嵌入字符串 (SELFIES)。
尽管 QM9 数据集包含大小完美的分子,可以成为 CB[6] 等主体的客体,但该研究遇到的一个限制是金属有机笼 具有更大的空腔,需要更大的客体分子。在未来的研究中,将使用包含更大分子的数据集,例如 GDB-17 数据集。
之后,「我们的目标是将新配体的选择嵌入到生成过程中,在自动化合成平台(例如 Chemputer 机器人)上自主合成分子,关闭优化和测试之间的循环,创建一个网络-物理闭环系统。」
以上是准确率 >98%,基于电子密度的 GPT 用于化学研究,登 Nature 子刊的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

在现代制造业中,精准的缺陷检测不仅是保证产品质量的关键,更是提升生产效率的核心。然而,现有的缺陷检测数据集常常缺乏实际应用所需的精确度和语义丰富性,导致模型无法识别具体的缺陷类别或位置。为了解决这一难题,由香港科技大学广州和思谋科技组成的顶尖研究团队,创新性地开发出了“DefectSpectrum”数据集,为工业缺陷提供了详尽、语义丰富的大规模标注。如表一所示,相比其他工业数据集,“DefectSpectrum”数据集提供了最多的缺陷标注(5438张缺陷样本),最细致的缺陷分类(125种缺陷类别

开放LLM社区正是百花齐放、竞相争鸣的时代,你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等许多表现优良的模型。但是,相比于以GPT-4-Turbo为代表的专有大模型,开放模型在很多领域依然还有明显差距。在通用模型之外,也有一些专精关键领域的开放模型已被开发出来,比如用于编程和数学的DeepSeek-Coder-V2、用于视觉-语言任务的InternVL

编辑|KX时至今日,晶体学所测定的结构细节和精度,从简单的金属到大型膜蛋白,是任何其他方法都无法比拟的。然而,最大的挑战——所谓的相位问题,仍然是从实验确定的振幅中检索相位信息。丹麦哥本哈根大学研究人员,开发了一种解决晶体相问题的深度学习方法PhAI,利用数百万人工晶体结构及其相应的合成衍射数据训练的深度学习神经网络,可以生成准确的电子密度图。研究表明,这种基于深度学习的从头算结构解决方案方法,可以以仅2埃的分辨率解决相位问题,该分辨率仅相当于原子分辨率可用数据的10%到20%,而传统的从头算方

对于AI来说,奥数不再是问题了。本周四,谷歌DeepMind的人工智能完成了一项壮举:用AI做出了今年国际数学奥林匹克竞赛IMO的真题,并且距拿金牌仅一步之遥。上周刚刚结束的IMO竞赛共有六道赛题,涉及代数、组合学、几何和数论。谷歌提出的混合AI系统做对了四道,获得28分,达到了银牌水平。本月初,UCLA终身教授陶哲轩刚刚宣传了百万美元奖金的AI数学奥林匹克竞赛(AIMO进步奖),没想到7月还没过,AI的做题水平就进步到了这种水平。IMO上同步做题,做对了最难题IMO是历史最悠久、规模最大、最负

编辑|ScienceAI基于有限的临床数据,数百种医疗算法已被批准。科学家们正在讨论由谁来测试这些工具,以及如何最好地进行测试。DevinSingh在急诊室目睹了一名儿科患者因长时间等待救治而心脏骤停,这促使他探索AI在缩短等待时间中的应用。Singh利用了SickKids急诊室的分诊数据,与同事们建立了一系列AI模型,用于提供潜在诊断和推荐测试。一项研究表明,这些模型可以加快22.3%的就诊速度,将每位需要进行医学检查的患者的结果处理速度加快近3小时。然而,人工智能算法在研究中的成功只是验证此

编辑|ScienceAI问答(QA)数据集在推动自然语言处理(NLP)研究发挥着至关重要的作用。高质量QA数据集不仅可以用于微调模型,也可以有效评估大语言模型(LLM)的能力,尤其是针对科学知识的理解和推理能力。尽管当前已有许多科学QA数据集,涵盖了医学、化学、生物等领域,但这些数据集仍存在一些不足。其一,数据形式较为单一,大多数为多项选择题(multiple-choicequestions),它们易于进行评估,但限制了模型的答案选择范围,无法充分测试模型的科学问题解答能力。相比之下,开放式问答

2023年,几乎AI的每个领域都在以前所未有的速度进化,同时,AI也在不断地推动着具身智能、自动驾驶等关键赛道的技术边界。多模态趋势下,Transformer作为AI大模型主流架构的局面是否会撼动?为何探索基于MoE(专家混合)架构的大模型成为业内新趋势?大型视觉模型(LVM)能否成为通用视觉的新突破?...我们从过去的半年发布的2023年本站PRO会员通讯中,挑选了10份针对以上领域技术趋势、产业变革进行深入剖析的专题解读,助您在新的一年里为大展宏图做好准备。本篇解读来自2023年Week50

编辑|KX逆合成是药物发现和有机合成中的一项关键任务,AI越来越多地用于加快这一过程。现有AI方法性能不尽人意,多样性有限。在实践中,化学反应通常会引起局部分子变化,反应物和产物之间存在很大重叠。受此启发,浙江大学侯廷军团队提出将单步逆合成预测重新定义为分子串编辑任务,迭代细化目标分子串以生成前体化合物。并提出了基于编辑的逆合成模型EditRetro,该模型可以实现高质量和多样化的预测。大量实验表明,模型在标准基准数据集USPTO-50 K上取得了出色的性能,top-1准确率达到60.8%。
