基于双任务的端到端无模板反应预测模型
重新排版 | X
本文旨在介绍西南交通大学杨燕/江永全团队在《应用智能》杂志上发表的研究成果,其中的第一作者是胡昊哲,一位硕士生
作者以目前无模板逆合成领域兴起的图至序列模型框架为基础,进一步在同参数量规模下尝试构建一类在单个模型中同时解决逆合成预测与正向反应预测任务的模型 BiG2S(双向图至序列)
同时,作者对主流逆合成数据集 USPTO-50k 进行了初步分析,探讨了模型在训练过程中对不同 SMILES 片段的预测难度差异以及模型在验证集上 Top-k 匹配率的波动情况,并针对这些问题引入了不平衡损失函数以及改进了模型集成和束搜索策略
在对三个主要的反应预测数据集进行测试时,通过对逆合成和正向反应预测任务进行测试,以及对上述模块进行全面的消融实验证明,BiG2S能够在适当的参数规模下以单一模型处理逆合成和正向反应预测任务。与已有的基于预训练和数据增强的无模板方法相比,BiG2S的整体预测能力同样出色
研究的背景
逆合成与正向合成是有机化学、计算机辅助合成规划(CASP)以及计算机辅助药物设计(CADD)领域的基础性挑战
进行内容改写时,需要将原文改写为中文,同时保持原始意思的不变
早期的逆合成规划系统直接依赖于领域专家预先编码的反应规则,或者是基于物理化学的计算,而随着深度学习的快速发展。目前领域内的主流方法则是构建一个任务特异的神经网络框架以从数据驱动的角度完成反应预测任务。其中,不依赖于特定先验化学知识的无模板法通过其类似于端到端机器翻译的简洁思路以及灵活性逐渐成为了领域内的主流发展方向之一。
当前,大多数无模板逆合成模型的输入和输出都是分子的 SMILES 字符串,即采用了序列至序列(Seq2Seq)的流程。这种方法能够很好地利用在自然语言处理领域内已有的模型框架,以及针对于 SMILES 表示方法的成熟的数据处理流程
然而,由于SMILES作为一维字符串序列无法很好地表征和利用分子图所包含的二维/三维结构信息,因此在这个领域中逐渐出现了使用分子图代替SMILES作为模型输入的图至序列(Graph2Seq)方法,或者将分子图的附加结构信息嵌入到SMILES序列中的序列至序列方法。这两种方法都能很好地利用来自分子图的丰富结构特征
基于此,本文以新兴的图至序列方法为基础,在原先基于SMILES的模型对逆合成与正向反应预测任务同时训练的相关探索的基准上,进一步全面地探究对这类双任务模型的构建与实验,同时也初步地探索与分析了模型在训练过程中所展现的难度不平衡以及Top-k匹配率波动的问题;在此基础上构建的BiG2S模型能够较好地处理主流数据集中的逆合成与正向反应预测任务,并在不使用数据增强的情况下取得与其他无模板逆合成模型一致的反应预测能力
总体框架需要进行重写
BiG2S整体结构是一个端到端的编码器-解码器,如图1所示。编码器端采用局部定向消息传递图网络和融入图结构偏置信息的全局图Transformer来生成最终的分子图节点表征。解码器则使用标准的Transformer解码器以自回归的方式生成目标分子的SMILES序列
需要注意的是,为了同时学习逆合成和正向反应预测,解码器端的输入额外包含了不添加位置信息的双任务标签。同时,解码器端的归一化层和最终的线性层都有两套参数,分别用于学习逆合成任务和正向反应预测任务
需要双任务训练框架
逆合成与正向反应预测是两个相关的任务,其中逆合成任务以产物作为输入和反应物作为目标输出,而正向反应预测任务则相反。这两个任务之间存在着紧密的联系,因为它们可以通过互换逆合成任务的输入和目标输出来转化为正向反应预测任务
因此,一些基于SMILES的无模板模型已经尝试通过将反向合成与正向反应预测作为训练目标,来提高对化学反应的理解,并取得了一定的效果。基于这个思路,作者进一步尝试将双任务训练引入到图到序列模型中
具体而言,作者基于先前在其他方法上使用的参数共享策略,在解码器的归一化层和最终的线性层内构建了两套任务特定的参数。而在其他模块中,两类任务共享一套参数。同时,在输入的分子图节点和解码器的初始输入序列中额外添加了双任务标签。这样,即使在控制整体模型规模的情况下,模型也能够区分两类任务并学习它们不同的数据分布
需要训练和推理优化
在训练过程中,作者进一步记录并分析了模型在训练过程中所反映出的两类问题
首先,作者记录了在USPTO-50k中不同SMILES字符的出现频次以及其在训练时对应的预测准确率,如图2所示。在训练过程中,对于在训练集中占比分别为0.4%和0.3%的S和Br,它们之间整体预测准确率的绝对差异达到了8%。这初步表明了不同的分子结构/片段间预测的难度存在明显的差异,由此,作者通过引入不平衡损失函数(如Focal Loss)来缓解此类问题,从而使模型能够更加关注训练时准确率更低的分子片段
图 2:在USPTO-50k训练集中,不同SMILES字符的出现频次以及其在训练时的整体预测准确率
此外,作者还记录了模型在训练期间对验证集的预测结果质量变化,如图3所示。作者发现,在USPTO-50k数据集的中后期训练阶段,模型在验证集上的Top-1准确率仍然在不断提高,但在Top-3、Top-5和Top-10的预测质量方面出现了明显下降
为了在提升模型 Top-1 预测质量的同时保持模型前十位反应物生成结果的整体质量,我们额外构建了一类基于自定义评价指标的模型集成策略。具体来说,我们构建了一类存储模型的队列,同时根据预定义的评价指标(如 Top-1 准确率,加权的 Top-k 准确率等)对存入的模型进行排序。在整个训练过程中,我们动态地存入待选模型并自动生成基于队列中前 3-5 位的集成模型,从而保留 Top-k 预测质量最高的模型。在推理阶段,我们也基于新的框架重新构建了更加注重于搜索广度的束搜索策略,以提升模型 Top-k 生成结果的整体质量
需要进行双任务实验中的基准数据集
作者在逆合成任务与正向反应预测任务中进行了实验,使用了包含 5 万、50 万以及 100 万条化学反应数据的数据集 USPTO-50k、USPTO-MIT、USPTO-full。实验中比较了双任务模型和单任务模型的表现。根据图4的测试结果显示
在小规模数据集中,BiG2S基于双任务训练在逆合成任务中取得了领先的预测精度,同时也保持了较高的正向反应预测精度;然而在偏向于正向反应预测的USPTO-MIT数据集以及大规模数据集USPTO-full中,由于模型整体参数量的限制,双任务训练后的模型表现出现了降低。尽管如此,从双任务模型以几乎一致的参数量与小幅度的反应预测能力降低( Top-k 准确率的绝对差值位于 0.5% 左右)获得了同时处理逆合成任务与正向反应预测任务的能力这一角度来看,BiG2S 模型已经达到了预期目标
重新分析消融实验
作者通过消融实验进一步验证了新的束搜索算法以及采用不平衡损失后 BiG2S 在不同数据集中进行预测时的最佳温度超参数。这里的温度超参数是指 Softmax 中用于控制输出概率分布的温度参数 T。实验结果如图5 和图6 所示
在针对束搜索算法的实验中,可以观察到OpenNMT在搜索宽度扩大至3倍的同时搜索耗时仅扩大至1.74倍,而新的束搜索算法在Top-1精度与OpenNMT一致的情况下整体的搜索耗时扩大了1-2倍;但在Top-10预测结果的质量上,新的束搜索算法与OpenNMT相比具有至少3%的绝对精度优势以及2%的有效分子比例优势,可以说新的束搜索算法以搜索耗时为代价带来了明显提升了模型整体Top-k搜索结果的质量
在对温度超参数进行实验时,研究人员发现,在小规模数据集上使用较大的温度参数可以显着提高整体的Top-k 预测精度。而在更大规模的数据集中,由于BiG2S 模型规模不能完全适应所有反应数据,此时选择较小的温度参数往往有助于模型搜索
研究的结论显示...
在本文中,作者提出了一种名为BiG2S的无模板反应预测模型,该模型可以同时处理逆合成任务和正向反应预测任务。通过采用适当的参数共享策略和额外的双任务标签,BiG2S能够以较小的参数量在不同规模的数据集上完成逆合成任务和反应预测任务,且其整体预测能力与主流模型相当
为了解决模型训练中不同SMILES 字符预测难度不均衡和Top-k 预测精度波动的问题,作者引入了不平衡损失、基于自定义评价指标的模型自动集成策略和基于新框架的束搜索算法来缓解这些问题
BiG2S 在三个不同规模的主流数据集上都表现出了很好的双任务预测能力,而进一步的消融实验也证明了额外引入的训练与推理策略的有效性
以上是基于双任务的端到端无模板反应预测模型的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

写在前面今天我们探讨下深度学习技术如何改善在复杂环境中基于视觉的SLAM(同时定位与地图构建)性能。通过将深度特征提取和深度匹配方法相结合,这里介绍了一种多功能的混合视觉SLAM系统,旨在提高在诸如低光条件、动态光照、弱纹理区域和严重抖动等挑战性场景中的适应性。我们的系统支持多种模式,包括拓展单目、立体、单目-惯性以及立体-惯性配置。除此之外,还分析了如何将视觉SLAM与深度学习方法相结合,以启发其他研究。通过在公共数据集和自采样数据上的广泛实验,展示了SL-SLAM在定位精度和跟踪鲁棒性方面优

在现代制造业中,精准的缺陷检测不仅是保证产品质量的关键,更是提升生产效率的核心。然而,现有的缺陷检测数据集常常缺乏实际应用所需的精确度和语义丰富性,导致模型无法识别具体的缺陷类别或位置。为了解决这一难题,由香港科技大学广州和思谋科技组成的顶尖研究团队,创新性地开发出了“DefectSpectrum”数据集,为工业缺陷提供了详尽、语义丰富的大规模标注。如表一所示,相比其他工业数据集,“DefectSpectrum”数据集提供了最多的缺陷标注(5438张缺陷样本),最细致的缺陷分类(125种缺陷类别

开放LLM社区正是百花齐放、竞相争鸣的时代,你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等许多表现优良的模型。但是,相比于以GPT-4-Turbo为代表的专有大模型,开放模型在很多领域依然还有明显差距。在通用模型之外,也有一些专精关键领域的开放模型已被开发出来,比如用于编程和数学的DeepSeek-Coder-V2、用于视觉-语言任务的InternVL

编辑|KX时至今日,晶体学所测定的结构细节和精度,从简单的金属到大型膜蛋白,是任何其他方法都无法比拟的。然而,最大的挑战——所谓的相位问题,仍然是从实验确定的振幅中检索相位信息。丹麦哥本哈根大学研究人员,开发了一种解决晶体相问题的深度学习方法PhAI,利用数百万人工晶体结构及其相应的合成衍射数据训练的深度学习神经网络,可以生成准确的电子密度图。研究表明,这种基于深度学习的从头算结构解决方案方法,可以以仅2埃的分辨率解决相位问题,该分辨率仅相当于原子分辨率可用数据的10%到20%,而传统的从头算方

对于AI来说,奥数不再是问题了。本周四,谷歌DeepMind的人工智能完成了一项壮举:用AI做出了今年国际数学奥林匹克竞赛IMO的真题,并且距拿金牌仅一步之遥。上周刚刚结束的IMO竞赛共有六道赛题,涉及代数、组合学、几何和数论。谷歌提出的混合AI系统做对了四道,获得28分,达到了银牌水平。本月初,UCLA终身教授陶哲轩刚刚宣传了百万美元奖金的AI数学奥林匹克竞赛(AIMO进步奖),没想到7月还没过,AI的做题水平就进步到了这种水平。IMO上同步做题,做对了最难题IMO是历史最悠久、规模最大、最负

编辑|ScienceAI基于有限的临床数据,数百种医疗算法已被批准。科学家们正在讨论由谁来测试这些工具,以及如何最好地进行测试。DevinSingh在急诊室目睹了一名儿科患者因长时间等待救治而心脏骤停,这促使他探索AI在缩短等待时间中的应用。Singh利用了SickKids急诊室的分诊数据,与同事们建立了一系列AI模型,用于提供潜在诊断和推荐测试。一项研究表明,这些模型可以加快22.3%的就诊速度,将每位需要进行医学检查的患者的结果处理速度加快近3小时。然而,人工智能算法在研究中的成功只是验证此

编辑|ScienceAI问答(QA)数据集在推动自然语言处理(NLP)研究发挥着至关重要的作用。高质量QA数据集不仅可以用于微调模型,也可以有效评估大语言模型(LLM)的能力,尤其是针对科学知识的理解和推理能力。尽管当前已有许多科学QA数据集,涵盖了医学、化学、生物等领域,但这些数据集仍存在一些不足。其一,数据形式较为单一,大多数为多项选择题(multiple-choicequestions),它们易于进行评估,但限制了模型的答案选择范围,无法充分测试模型的科学问题解答能力。相比之下,开放式问答

2023年,几乎AI的每个领域都在以前所未有的速度进化,同时,AI也在不断地推动着具身智能、自动驾驶等关键赛道的技术边界。多模态趋势下,Transformer作为AI大模型主流架构的局面是否会撼动?为何探索基于MoE(专家混合)架构的大模型成为业内新趋势?大型视觉模型(LVM)能否成为通用视觉的新突破?...我们从过去的半年发布的2023年本站PRO会员通讯中,挑选了10份针对以上领域技术趋势、产业变革进行深入剖析的专题解读,助您在新的一年里为大展宏图做好准备。本篇解读来自2023年Week50
