连续反转!DeepMind遭俄罗斯团队质疑:我们该如何证明神经网络懂物理世界?
最近科学界又出现一场争论,故事的主角是DeepMind位于伦敦的研究中心于2021年12月发表的一篇Science论文,研究人员发现神经网络可以用来训练并构建比以前更精确的电子密度和相互作用图,能够有效解决传统泛函理论中的系统误差。
论文链接:https://www.science.org/doi/epdf/10.1126/science.abj6511
文中提出的DM21模型准确地模拟了复杂的系统,如氢链、带电的DNA碱基对和二元过渡态。对量子化学领域来说,可以说是开辟了一条通往精确的通用函数且可行的技术路线。
DeepMind的研究人员还放出了DM21模型的代码,方便同行复现。
仓库链接:https://github.com/deepmind/deepmind-research
按照道理来说,论文和代码都公开,还是发表在顶级期刊上,实验结果和研究结论基本上是可靠的。
但时隔八个月,来自俄罗斯和韩国的八位研究人员也在Science上发表了一篇科技评论,他们认为DeepMind原始研究中存在问题,即训练集和测试集可能存在重叠部分,导致实验结论不正确。
论文链接:https://www.science.org/doi/epdf/10.1126/science.abq3385
如果质疑属实,那DeepMind这篇号称化学界重大技术突破的论文,神经网络取得的改进可能都得归功于数据泄露了。
不过DeepMind的反应也很迅速,在该评论发表的同一天,立刻写了一篇回复表示反对,并表示强烈谴责:他们提出的观点要么不正确,要么与论文的主要结论以及对DM21总体质量的评估无关。
论文链接:https://www.science.org/doi/epdf/10.1126/science.abq4282
著名物理学家费曼曾说过,科学家就是要尽快证明自己是错误的,唯有如此才能进步。
虽然这次讨论的结果还没有定论,俄罗斯团队也没有进一步发表反驳文章,但该事件对人工智能领域的研究可能会产生更深远的影响:即该如何证明自己训练得到的神经网络模型,真正理解了任务,而非只是记忆pattern?
研究问题
化学是21世纪的中心科学(确信),比如设计具有指定特性的新材料,如生产清洁电力或开发高温超导体,都需要在计算机上对电子进行模拟。
电子是控制原子如何结合形成分子的亚原子粒子,也负责固体中的电流流动,了解电子在分子内的位置可以大大有助于解释其结构、性质和反应性。
1926年,薛定谔提出薛定谔方程,能够正确地描述波函数的量子行为。但用该方程来预测分子中的电子则显得力不从心,因为所有的电子都相互排斥,需要跟踪每个电子位置的概率,即使对于少量电子来说也是一项非常复杂的任务。
1960 年代出现了一项重大突破,当时Pierre Hohenberg和Walter Kohn意识到没有必要单独跟踪每个电子。相反,知道任何电子在每个位置的概率(即电子密度)就足以准确计算所有相互作用。
在证明了上述理论后,Kohn获得诺贝尔化学奖,从而创立了密度泛函理论(density functional theory, DFT)
尽管 DFT 证明mapping存在,但50多年来,电子密度和相互作用能之间映射的确切性质,即所谓的密度泛函仍然未知,必须进行近似求解。
DFT本质上还是一种求解薛定谔方程的方法,其准确性取决于它的交换相关(exchange-correlation)部分。虽然DFT涉及一定程度的近似,但它是研究物质在微观层面如何以及为何以某种方式表达的唯一实用方法,因此已成为所有科学领域中使用最广泛的技术之一。
多年来,研究人员提出了400多种精确度不同的近似函数,但所有这些近似都存在系统误差,因为它们无法捕捉精确泛函的某些关键数学特性。
一说到学习近似函数,这不就是神经网络在干的事吗?
DeepMind在这篇论文里就是在分子数据和具有分数电荷和自旋的虚构系统上训练一个神经网络DM 21 (DeepMind 21),成功学习到了一个没有系统错误的泛函,能够避免离域误差(delocalization error)和自旋对称性破缺(spin symmetry breaking),可以更好地描述广泛的化学反应类别。
从原理上来说,任何涉及电荷移动的化学物理过程都容易出现离域误差,任何涉及键断裂的过程都容易出现自旋对称性破缺。而电荷运动和键断裂是许多重要技术应用的核心,但这些问题也可能导致描述最简单分子(如氢)的官能团出现大量定性失败。
模型搭建采用的是多层感知器(MLP),输入为被占领的Kohn-Sham(KS)轨道的局部和非局部特征。
目标函数包含两个:一个是用于学习交换相关能本身的回归损失,另一个是确保函数导数在训练后可用于自洽场(self-consistent field, SCF)计算的梯度正则化项。
对于回归损失,研究人员用一个固定密度的数据集,代表了2235个反应的反应物和产物,通过最小二乘法目标,训练网络从这些密度映射到高准确度的反应能量,其中1161个训练反应代表了小型主族H-Kr分子的原子化、电离、电子亲和力和分子间结合能,1074个反应代表了H-Ar原子的关键FC和FS密度。
训练后得到的模型DM21能够在大型主族基准的所有反应上自洽地运行,产生更准确的分子密度。
真SOTA还是数据泄露?
DeepMind在训练DM21时,采用的数据是分数电荷系统,比如带有半个电子的氢原子。
为了证明DM21的优越性,研究人员在一组拉伸二聚体(stretched dimers)上,称为bond-breaking benchmark(BBB)组,进行测试。比如两个氢原子相距很远,总共有一个电子。
实验结果发现DM21泛函在BBB测试集上表现出出色的性能,超越了迄今为止所有测试的经典DFT泛函和DM21m(与 DM21 训练相同,但在训练集中没有分数电荷)。
然后DeepMind在论文中宣称:DM21已经了解分数电荷系统背后的物理原理。
但仔细观察就会发现BBB组中,所有二聚体都变得与训练组中的系统非常相似。实际上,由于电弱相互作用的局部性,原子相互作用仅在短距离处强,在此之外,两个原子的行为基本上就好像它们没有相互作用。
俄罗斯科学院泽林斯基有机化学研究所的研究组长Michael Medvedev解释说,在某些方面,神经网络就像人类一样,他们更喜欢因为错误的原因得到正确的答案。因此,训练神经网络并不难,但你很难证明它已经学习了物理定律,而非只是记住正确的答案。
因此,BBB 测试集不是一个合适的测试集:它不测试 DM21 对分数电子系统的理解,对此类系统的 DM21 处理的其他四个证据的彻底分析也没有得出决定性的结论:只有它在 SIE4x4 集上的良好精度可能是可靠的。
俄罗斯的研究者也认为,在训练集中使用分数电荷系统并不是DeepMind工作中唯一的新颖之处。他们通过训练集将物理约束引入神经网络的想法,以及通过对正确化学势的训练来赋予物理意义的方法,未来可能会广泛用于神经网络DFT 泛函的构建。
DeepMind回应
对于Comment论文声称的DM21对于训练集外预测分数电荷(FC)和分数自旋(FS)条件的能力在论文中没有得到证明,这是基于训练集与断键基准BBB有约50%的重叠,以及其他泛化例子的有效性和准确性得出的结论。
DeepMind不同意该分析,并认为所提出的观点要么不正确,要么与本文的主要结论和对DM21总体质量的评估不相关,因为BBB并不是论文中所展示的FC和FS行为的唯一例子。
训练集和测试集之间的overlap是机器学习中值得关注的一个研究问题:记忆意味着一个模型可以通过复制训练集中的例子在测试集上表现更好。
Gerasimov认为DM21在BBB上的表现(包含有限距离的二聚体)可以通过复制FC和FS系统的输出(即原子在无限分离极限时与二聚体匹配)得到很好的解释。
为了证明DM21的泛化超出了训练集,DeepMind研究人员还考虑H2+(阳离子二聚体)和H2(中性二聚体)的原型BBB例子,可以得出结论:确切的exchange-correlation函数是非局部的;随着距离的增加,返回一个常数记忆的值会导致BBB预测出现显著错误。
以上是连续反转!DeepMind遭俄罗斯团队质疑:我们该如何证明神经网络懂物理世界?的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

本站6月27日消息,剪映是由字节跳动旗下脸萌科技开发的一款视频剪辑软件,依托于抖音平台且基本面向该平台用户制作短视频内容,并兼容iOS、安卓、Windows、MacOS等操作系统。剪映官方宣布会员体系升级,推出全新SVIP,包含多种AI黑科技,例如智能翻译、智能划重点、智能包装、数字人合成等。价格方面,剪映SVIP月费79元,年费599元(本站注:折合每月49.9元),连续包月则为59元每月,连续包年为499元每年(折合每月41.6元)。此外,剪映官方还表示,为提升用户体验,向已订阅了原版VIP

通过将检索增强生成和语义记忆纳入AI编码助手,提升开发人员的生产力、效率和准确性。译自EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG,作者JanakiramMSV。虽然基本AI编程助手自然有帮助,但由于依赖对软件语言和编写软件最常见模式的总体理解,因此常常无法提供最相关和正确的代码建议。这些编码助手生成的代码适合解决他们负责解决的问题,但通常不符合各个团队的编码标准、惯例和风格。这通常会导致需要修改或完善其建议,以便将代码接受到应

但可能打不过公园里的老大爷?巴黎奥运会正在如火如荼地进行中,乒乓球项目备受关注。与此同时,机器人打乒乓球也取得了新突破。刚刚,DeepMind提出了第一个在竞技乒乓球比赛中达到人类业余选手水平的学习型机器人智能体。论文地址:https://arxiv.org/pdf/2408.03906DeepMind这个机器人打乒乓球什么水平呢?大概和人类业余选手不相上下:正手反手都会:对手采用多种打法,该机器人也能招架得住:接不同旋转的发球:不过,比赛激烈程度似乎不如公园老大爷对战。对机器人来说,乒乓球运动

大型语言模型(LLM)是在巨大的文本数据库上训练的,在那里它们获得了大量的实际知识。这些知识嵌入到它们的参数中,然后可以在需要时使用。这些模型的知识在训练结束时被“具体化”。在预训练结束时,模型实际上停止学习。对模型进行对齐或进行指令调优,让模型学习如何充分利用这些知识,以及如何更自然地响应用户的问题。但是有时模型知识是不够的,尽管模型可以通过RAG访问外部内容,但通过微调使用模型适应新的领域被认为是有益的。这种微调是使用人工标注者或其他llm创建的输入进行的,模型会遇到额外的实际知识并将其整合

想了解更多AIGC的内容,请访问:51CTOAI.x社区https://www.51cto.com/aigc/译者|晶颜审校|重楼不同于互联网上随处可见的传统问题库,这些问题需要跳出常规思维。大语言模型(LLM)在数据科学、生成式人工智能(GenAI)和人工智能领域越来越重要。这些复杂的算法提升了人类的技能,并在诸多行业中推动了效率和创新性的提升,成为企业保持竞争力的关键。LLM的应用范围非常广泛,它可以用于自然语言处理、文本生成、语音识别和推荐系统等领域。通过学习大量的数据,LLM能够生成文本

机器学习是人工智能的重要分支,它赋予计算机从数据中学习的能力,并能够在无需明确编程的情况下改进自身能力。机器学习在各个领域都有着广泛的应用,从图像识别和自然语言处理到推荐系统和欺诈检测,它正在改变我们的生活方式。机器学习领域存在着多种不同的方法和理论,其中最具影响力的五种方法被称为“机器学习五大派”。这五大派分别为符号派、联结派、进化派、贝叶斯派和类推学派。1.符号学派符号学(Symbolism),又称为符号主义,强调利用符号进行逻辑推理和表达知识。该学派认为学习是一种逆向演绎的过程,通过已有的

编辑|ScienceAI问答(QA)数据集在推动自然语言处理(NLP)研究发挥着至关重要的作用。高质量QA数据集不仅可以用于微调模型,也可以有效评估大语言模型(LLM)的能力,尤其是针对科学知识的理解和推理能力。尽管当前已有许多科学QA数据集,涵盖了医学、化学、生物等领域,但这些数据集仍存在一些不足。其一,数据形式较为单一,大多数为多项选择题(multiple-choicequestions),它们易于进行评估,但限制了模型的答案选择范围,无法充分测试模型的科学问题解答能力。相比之下,开放式问答

编辑|萝卜皮自2021年发布强大的AlphaFold2以来,科学家们一直在使用蛋白质结构预测模型来绘制细胞内各种蛋白质结构的图谱、发现药物,并绘制每种已知蛋白质相互作用的「宇宙图」 。就在刚刚,GoogleDeepMind发布了AlphaFold3模型,该模型能够对包括蛋白质、核酸、小分子、离子和修饰残基在内的复合物进行联合结构预测。 AlphaFold3的准确性对比过去许多专用工具(蛋白质-配体相互作用、蛋白质-核酸相互作用、抗体-抗原预测)有显着提高。这表明,在单个统一的深度学习框架内,可以实现
