AI4Science的基石:几何图神经网络,最全综述来了!人大高瓴联合腾讯AI lab、清华、斯坦福等发布
编辑 | XS
Nature 在 2023 年 11 月发表了两项重要研究成果:蛋白质合成技术 Chroma 和晶体材料设计方法 GNoME。这两项研究都采用了图神经网络作为处理科学数据的工具。
实际上,图神经网络,特别是几何图神经网络,一直是科学智能(AI for Science)研究的重要工具。这是因为,科学领域中的粒子、分子、蛋白质、晶体等物理系统均可被建模成一种特殊的数据结构——几何图。
与一般的拓扑图不同,为了更好描述物理系统,几何图加入了不可或缺的空间信息,需要满足平移、旋转和翻转的物理对称性。鉴于几何图神经网络对于物理系统建模的优越性,近年来各类方法层出不穷,论文数量持续增长。
近日,人大高瓴联合腾讯 AI Lab、清华、斯坦福等机构发布综述论文:《A Survey of Geometric Graph Neural Networks: Data Structures, Models and Applications》。该综述在简要介绍群论、对称性等理论知识的基础上,从数据结构、模型到众多科学应用,对相关几何图神经网络文献进行了系统的梳理。
论文链接:https://arxiv.org/abs/2403.00485
GitHub链接:https://github.com/RUC-GLAD/GGNN4Science
在这篇综述中,作者调研了 300 多篇参考文献,归纳出 3 种不同的几何图神经网络模型,介绍了面向粒子、分子、蛋白质等多种科学数据上共 23 种不同任务的相关方法,收集了 50 多个相关评测数据集。最后,综述展望了未来的研究方向,包括几何图基础模型、与大语言模型结合等。
下面是各章节简要介绍。
几何图数据结构
几何图由邻接矩阵、节点特征、节点几何信息(例如坐标)构成。在欧氏空间中,几何图通常表现出平移、旋转和反射的物理对称性,一般使用群来刻画这些变换,包括欧式群、平移群、正交群、置换群等等。直观上看,可以理解为置换、平移、旋转、翻转四种操作按一定顺序的复合。
对于众多 AI for Science 领域,几何图是一种有力且通用的表示方法,其可以用于表示众多物理系统,包括小分子、蛋白质、晶体、物理点云等。
几何图神经网络模型
根据实际问题中的求解目标对于对称性的要求,本文将几何图神经网络分为三类:不变(invariant)模型、等变(equivariant)模型、以及受 Transformer 架构启发的 Geometric Graph Transformer,其中等变模型又细分为标量化方法模型(Scalarization-Based Model)与基于球面调和的高阶可操控模型(High-Degree Steerable Model)。按照上述规则,文章收集并归类了近年来知名的几何图神经网络模型。
这里我们通过各个分支的代表性工作简要介绍不变模型(SchNet[1])、标量化方法模型(EGNN[2])、高阶可操控模型(TFN[3])的关联与区别。可以发现三者均是采用了消息传递机制,只是身为等变模型的后两者额外引入了一次几何消息传递。
不变模型主要利用节点本身的特征(如原子种类、质量、带电量等)与原子间的不变特征(如距离、角度[4]、二面角[5])等进行消息计算,随后进行传播。
而在此之上,标量化方法额外通过节点间坐标差引入了几何信息,并将不变信息作为几何信息的权重进行线性组合,实现了等变性的引入。
高阶可操控模型则是使用了高阶的球面调和(Spherical Harmonics)与 Wigner-D 矩阵表征系统的几何信息,这类方法通过量子力学中的 Clebsch–Gordan 系数操控不可约表示的阶数,从而实现几何消息传递过程。
几何图神经网络通过这类设计保证的对称性,准确率有大幅提升,并且在生成任务中也大放异彩。
下图是几何图神经网络与传统模型在 QM9、PDBBind、SabDab 三个数据集上进行分子性质预测、蛋白质-配体对接和抗体设计(生成)三个任务中的结果,可以明显看出几何图神经网络的优势。
科学应用
在科学应用方面,综述涵盖了物理(粒子)、生物化学(小分子、蛋白质)以及其它如晶体等多个应用场景,任务定义与所需保证对称性种类出发,分别介绍了各个任务中的常用数据集与该类任务中的经典模型设计思路。
上表展示了各个领域的常见任务与经典模型,其中,按照单一实例与多实例(如化学反应,需要多分子共同参与),文章单独区分了小分子-小分子、小分子-蛋白质、蛋白质-蛋白质三个领域。
为了更好地方便领域内进行模型设计与实验开展,文章按照单一实例与多实例统计了两类任务的常用数据集与基准(benchmark),并记录了不同数据集的样本量与任务种类。
下表整理了常见的单实例任务数据集。
下表整理了常见的多实例任务数据集。
未来展望
文章就几个方面进行了初步的展望,希望能作抛砖引玉之用:
1. 几何图基础模型
在各种任务和领域中采用统一的基础模型的优越性在GPT系列模型的显著进步中已经体现得淋漓尽致。如何在任务空间、数据空间、模型空间进行合理的设计,从而将这种思路引入到针对几何图神经网络的设计上仍是一个有趣的开放问题。
2. 模型训练与现实世界实验验证的高效循环
科学数据的获取是昂贵且耗时的,而仅仅在独立数据集上评估的模型不能直接反应来自现实世界的反馈。如何类似于GNoME(集成了一个端到端的流水线,包括图网络训练、密度泛函理论计算和用于材料发现和合成的自动实验室)实现高效的模型-现实循环迭代的实验范式的重要性将会与日俱增。
3. 与大型语言模型(LLMs)的融合
大型语言模型(LLMs)已被广泛证明具有丰富的知识,涵盖了各个领域。虽然已经有一些工作利用 LLMs 进行某些任务,例如分子属性预测和药物设计,但它们仅在基元或分子图上操作。如何将它们与几何图神经网络有机组合,使其能够处理 3D 结构信息并在 3D 结构上执行预测或生成,仍然具有相当的挑战性。
4. 等变性约束条件的放松
毫无疑问,等变性对增强数据效率和模型泛化能力至关重要,但值得注意的是,过强等变性约束有时可能过于限制模型,潜在地损害其性能。因此,如何使得所设计的模型在等变性与适应能力中取得平衡是一个非常有趣的问题。这方面的探索不仅可以丰富我们对模型行为的理解,还可以为开发更具鲁棒性和通用性的解决方案铺平道路,使其具有更广泛的适用性。
参考文献
[1] Schütt K, Kindermans P J, Sauceda Felix H E, et al. Schnet: A continuous-filter convolutional neural network for modeling quantum interactions[J]. Advances in neural information processing systems, 2017, 30.
[2] Satorras VG, Hoogeboom E, Welling M. E (n)等变图神经网络[C]//机器学习国际会议。 PMLR,2021:9323-9332。
[3] Thomas N、Smidt T、Kearnes S 等人。张量场网络:3d 点云的旋转和平移等变神经网络[J]. arXiv 预印本 arXiv:1802.08219, 2018.
[4] Gasteiger J, Groß J, Günnemann S. 分子图的定向消息传递[C]//学习表示国际会议。 2019.
[5] Gasteiger J, Becker F, Günnemann S. Gemnet:分子的通用有向图神经网络[J].神经信息处理系统的进展,2021, 34: 6790-6802.
[6] Merchant A, Batzner S, Schoenholz S S, et al.扩展深度学习以促进材料发现[J].自然, 2023, 624(7990): 80-85.
以上是AI4Science的基石:几何图神经网络,最全综述来了!人大高瓴联合腾讯AI lab、清华、斯坦福等发布的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

在现代制造业中,精准的缺陷检测不仅是保证产品质量的关键,更是提升生产效率的核心。然而,现有的缺陷检测数据集常常缺乏实际应用所需的精确度和语义丰富性,导致模型无法识别具体的缺陷类别或位置。为了解决这一难题,由香港科技大学广州和思谋科技组成的顶尖研究团队,创新性地开发出了“DefectSpectrum”数据集,为工业缺陷提供了详尽、语义丰富的大规模标注。如表一所示,相比其他工业数据集,“DefectSpectrum”数据集提供了最多的缺陷标注(5438张缺陷样本),最细致的缺陷分类(125种缺陷类别

开放LLM社区正是百花齐放、竞相争鸣的时代,你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等许多表现优良的模型。但是,相比于以GPT-4-Turbo为代表的专有大模型,开放模型在很多领域依然还有明显差距。在通用模型之外,也有一些专精关键领域的开放模型已被开发出来,比如用于编程和数学的DeepSeek-Coder-V2、用于视觉-语言任务的InternVL

对于AI来说,奥数不再是问题了。本周四,谷歌DeepMind的人工智能完成了一项壮举:用AI做出了今年国际数学奥林匹克竞赛IMO的真题,并且距拿金牌仅一步之遥。上周刚刚结束的IMO竞赛共有六道赛题,涉及代数、组合学、几何和数论。谷歌提出的混合AI系统做对了四道,获得28分,达到了银牌水平。本月初,UCLA终身教授陶哲轩刚刚宣传了百万美元奖金的AI数学奥林匹克竞赛(AIMO进步奖),没想到7月还没过,AI的做题水平就进步到了这种水平。IMO上同步做题,做对了最难题IMO是历史最悠久、规模最大、最负

编辑|KX时至今日,晶体学所测定的结构细节和精度,从简单的金属到大型膜蛋白,是任何其他方法都无法比拟的。然而,最大的挑战——所谓的相位问题,仍然是从实验确定的振幅中检索相位信息。丹麦哥本哈根大学研究人员,开发了一种解决晶体相问题的深度学习方法PhAI,利用数百万人工晶体结构及其相应的合成衍射数据训练的深度学习神经网络,可以生成准确的电子密度图。研究表明,这种基于深度学习的从头算结构解决方案方法,可以以仅2埃的分辨率解决相位问题,该分辨率仅相当于原子分辨率可用数据的10%到20%,而传统的从头算方

编辑|ScienceAI基于有限的临床数据,数百种医疗算法已被批准。科学家们正在讨论由谁来测试这些工具,以及如何最好地进行测试。DevinSingh在急诊室目睹了一名儿科患者因长时间等待救治而心脏骤停,这促使他探索AI在缩短等待时间中的应用。Singh利用了SickKids急诊室的分诊数据,与同事们建立了一系列AI模型,用于提供潜在诊断和推荐测试。一项研究表明,这些模型可以加快22.3%的就诊速度,将每位需要进行医学检查的患者的结果处理速度加快近3小时。然而,人工智能算法在研究中的成功只是验证此

编辑|ScienceAI问答(QA)数据集在推动自然语言处理(NLP)研究发挥着至关重要的作用。高质量QA数据集不仅可以用于微调模型,也可以有效评估大语言模型(LLM)的能力,尤其是针对科学知识的理解和推理能力。尽管当前已有许多科学QA数据集,涵盖了医学、化学、生物等领域,但这些数据集仍存在一些不足。其一,数据形式较为单一,大多数为多项选择题(multiple-choicequestions),它们易于进行评估,但限制了模型的答案选择范围,无法充分测试模型的科学问题解答能力。相比之下,开放式问答

编译|星璇出品|51CTO技术栈(微信号:blog51cto)在过去的两年里,我更多地参与了使用大型语言模型(LLMs)的生成AI项目,而非传统的系统。我开始怀念无服务器云计算。它们的应用范围广泛,从增强对话AI到为各行各业提供复杂的分析解决方案,以及其他许多功能。许多企业将这些模型部署在云平台上,因为公共云提供商已经提供了现成的生态系统,而且这是阻力最小的路径。然而,这并不便宜。云还提供了其他好处,如可扩展性、效率和高级计算能力(按需提供GPU)。在公共云平台上部署LLM的过程有一些鲜为人知的

2023年,几乎AI的每个领域都在以前所未有的速度进化,同时,AI也在不断地推动着具身智能、自动驾驶等关键赛道的技术边界。多模态趋势下,Transformer作为AI大模型主流架构的局面是否会撼动?为何探索基于MoE(专家混合)架构的大模型成为业内新趋势?大型视觉模型(LVM)能否成为通用视觉的新突破?...我们从过去的半年发布的2023年本站PRO会员通讯中,挑选了10份针对以上领域技术趋势、产业变革进行深入剖析的专题解读,助您在新的一年里为大展宏图做好准备。本篇解读来自2023年Week50
