基于结构化数据的异常检测再思考: 我们究竟需要怎样的图神经网络？-人工智能-PHP中文网

面向结构化图数据的异常检测：背景与挑战

另辟蹊径：谱域视角下的图异常检测

图异常检测的新利器：Beta 小波图神经网络

总结

首页

科技周边

人工智能

基于结构化数据的异常检测再思考: 我们究竟需要怎样的图神经网络？

王林

Apr 13, 2023 pm 01:43 PM

数据结构

基于结构化数据的异常检测再思考: 我们究竟需要怎样的图神经网络？

论文地址：https://arxiv.org/abs/2205.15508

代码地址：https://github.com/squareRoot3/Rethinking-Anomaly-Detection

面向结构化图数据的异常检测：背景与挑战

异常检测是数据挖掘的经典任务之一。分析异常数据有助于企业或用户理解其背后的形成机制，从而做出相应决策，避免损失。随着网络发展，面向结构化数据的异常检测，即图异常检测，受到越来越多关注。

图异常检测具体可定义为：寻找图上的少部分对象（节点、边、子图等），它们与其余大多数对象有着不同分布规律。 本文专注于图上异常节点的检测任务 。相较于传统的异常检测方法，图异常检测能够利用不同实体之间的关联信息，更好服务于网络安全、欺诈检测、水军检测、金融风控、故障监测等实际场景。

下图直观对比了传统异常检测与面向图的异常检测任务之间的区别。

基于结构化数据的异常检测再思考: 我们究竟需要怎样的图神经网络？

图 1：传统异常检测与面向图的异常检测任务对比。

近年来，图神经网络成为分析处理结构化数据的一大利器。图神经网络通过学习包含节点自身特征和邻居信息的嵌入表示，来更好完成分类、重建、回归等下游任务。

然而，通用的图神经网络（如图卷积网络等）主要针对正常数据设计，在异常检测任务上容易遇到 “过平滑”(over-smoothing) 问题，即异常节点和正常节点的表达难以区分，影响异常检测的准确率。例如，在金融欺诈检测的实际应用中，异常账户通常会先与多个正常账户进行正常交易来伪装自己，降低自身可疑程度，之后再展开违规交易。这种 “关系欺诈” 进一步增加了图异常检测的难度。

为了解决上述困难，研究者专门提出 针对异常检测任务的图神经网络模型 ，包括（1）利用注意力机制从多个视图聚合邻域信息；（2）利用重采样方法聚合不同类别的邻域信息；（3）设计额外的损失函数来辅助图神经网络的训练等。这些方法主要从空域的角度设计图神经网络来处理异常，但并没有人从谱域的角度考虑过该问题。

事实证明，选择不同的频谱滤波器（spectral filter）会影响图神经网络的表达能力，从而造成性能上的差异。

另辟蹊径：谱域视角下的图异常检测

为了填补现有研究的空白，本文希望回答这样一个问题：如何为图神经网络量身定做一个频谱滤波器用于异常检测？

本文首次尝试了从 谱域视角 分析图上的异常数据，并观察到：异常数据会导致频谱能量的 “右移”，即能量更少集中在低频，同时更多集中在高频。

为了可视化这种右移现象，研究者首先随机生成了一个有 500 个节点的 Barabási–Albert 图（BA 图），并假设图上正常节点和异常节点的属性分别遵循两个不同的高斯分布，其中异常节点的方差更大。

图片的上半部分展示了包含不同程度异常的数据在 BA 图上的分布，而下半部分展示了对应的频谱能量分布。其中，柱状图代表对应频谱区间的能量占比，折线图代表从零到该点频域能量的累积占比。

基于结构化数据的异常检测再思考: 我们究竟需要怎样的图神经网络？

图 2：频谱能量 “右移” 现象的可视化。

从上图可以看出，当异常数据占比为 0% 时，大部分能量集中在低频部分（λ

在实际场景中，异常数据通常遵循更加复杂的分布。在四个大规模图异常检测数据集上，研究者同样证实了 “右移” 现象的存在。以下图亚马逊异常用户检测数据集为例，当删除数据中一部分异常节点后，频谱上低频能量显著增多，同时高频则相应减少。如果删除同样数量的随机节点，频谱的能量分布几乎没有变化。这进一步验证了异常数据是频谱能量 “右移” 的关键。

基于结构化数据的异常检测再思考: 我们究竟需要怎样的图神经网络？

图 3 : 亚马逊异常用户检测数据集上删除不同节点对频谱能量分布的影响：原图 (The Original)，删除随机节点 (Drop-Random)，删除异常节点 (Drop-Anomaly)

图异常检测的新利器：Beta 小波图神经网络

上节的分析表明，在图异常检测时需要关注 “右移” 效应。例如上图亚马逊数据集中，特征值 λ=1 附近的频谱信息与异常数据有较大关联。为了更好地捕获异常信息，图神经网络需要具备带通滤波器的性质，只保留 λ=1 附近的信号同时过滤其余信号。

遗憾的是，现有的图神经网络大多属于低通滤波器或者自适应滤波器，它们无法保证带通性质。其中自适应滤波器虽然具有拟合任意函数的能力，但在异常检测中同样可能退化为低通滤波器。这是因为在整个数据集中，异常数据对应的高频信息占比较小，而大部分频谱能量仍然集中在低频。

为了更好处理异常数据造成的 “右移”，研究者提出了一种图异常检测的新方法 —— Beta 小波图神经网络 (BWGNN) 。通过借鉴 Hammond 图小波理论，他们基于 Beta 函数设计了新的小波核作为图神经网络的频谱滤波器。

相比于常用的热核 (Heat Kernel) 函数，Beta 函数作为小波核不仅符合带通滤波器的要求，还具有更好的频域局部性与空域局部性。下图对比了热核小波与 Beta 核小波的区别。

基于结构化数据的异常检测再思考: 我们究竟需要怎样的图神经网络？

图 4：热核小波与 Beta 核小波在谱域（左）和空域（右）上的对比，Beta 函数具有更好的带通与局部性质。

本文 在四个大规模图异常检测数据集上验证了 BWGNN 的性能 。其中，Yelp 数据集面向点评网站异常评论检测，Amazon 数据集面向电商平台异常用户检测，T-Finance 数据集面向交易网络异常用户检测，T-Social 数据集面向社交网络异常用户检测，包含多达五百万个节点和七千万条边。

从下表可以看出，与传统分类模型、通用图神经网络和专门的图异常检测模型相比，BWGNN 在 40% 训练数据和 1% 训练数据（半监督）两个场景下均取得更好的效果。在运行效率上，BWGNN 与大部分通用图神经网络耗时接近，比其余图异常检测模型更高效。

基于结构化数据的异常检测再思考: 我们究竟需要怎样的图神经网络？

总结

本文中，研究者发现图上异常节点的出现会导致频谱能量 “右移”，为面向结构化数据的异常检测提供了一种新视角。基于该发现，本文提出了图异常检测的新工具 ——Beta 小波图神经网络 (BWGNN)。它通过专门设计的带通滤波器来捕获 “右移” 产生的高频异常信息，在多个数据集上取得了最优效果。

在实际落地中，图异常检测通常是一个复杂的系统工程，但选择合适的图神经网络是影响系统性能的一个关键因素。研究者提出的 BWGNN 设计精简、复杂度低、易于替换，是图神经网络的一项新选择。

以上是基于结构化数据的异常检测再思考: 我们究竟需要怎样的图神经网络？的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7685

Java教程

1639

CakePHP 教程

1393

Laravel 教程

1287

PHP教程

1229

显示更多

Related knowledge

使用ddrescue在Linux上恢复数据 Mar 20, 2024 pm 01:37 PM

DDREASE是一种用于从文件或块设备(如硬盘、SSD、RAM磁盘、CD、DVD和USB存储设备)恢复数据的工具。它将数据从一个块设备复制到另一个块设备，留下损坏的数据块，只移动好的数据块。ddreasue是一种强大的恢复工具，完全自动化，因为它在恢复操作期间不需要任何干扰。此外，由于有了ddasue地图文件，它可以随时停止和恢复。DDREASE的其他主要功能如下：它不会覆盖恢复的数据，但会在迭代恢复的情况下填补空白。但是，如果指示工具显式执行此操作，则可以将其截断。将数据从多个文件或块恢复到单

开源！超越ZoeDepth！ DepthFM：快速且精确的单目深度估计！ Apr 03, 2024 pm 12:04 PM

0.这篇文章干了啥？提出了DepthFM：一个多功能且快速的最先进的生成式单目深度估计模型。除了传统的深度估计任务外，DepthFM还展示了在深度修复等下游任务中的最先进能力。DepthFM效率高，可以在少数推理步骤内合成深度图。下面一起来阅读一下这项工作~1.论文信息标题：DepthFM:FastMonocularDepthEstimationwithFlowMatching作者：MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

如何多条件使用Excel过滤功能 Feb 26, 2024 am 10:19 AM

如果您需要了解如何在Excel中使用具有多个条件的筛选功能，以下教程将指导您完成相应步骤，确保您可以有效地对数据进行筛选和排序。Excel的筛选功能是非常强大的，能够帮助您从大量数据中提取所需的信息。这个功能可以根据您设定的条件，过滤数据并只显示符合条件的部分，让数据的管理变得更加高效。通过使用筛选功能，您可以快速找到目标数据，节省了查找和整理数据的时间。这个功能不仅可以应用在简单的数据列表上，还可以根据多个条件进行筛选，帮助您更精准地定位所需信息。总的来说，Excel的筛选功能是一个非常实用的

谷歌狂喜：JAX性能超越Pytorch、TensorFlow！或成GPU推理训练最快选择 Apr 01, 2024 pm 07:46 PM

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow，7项指标排名第一。而且测试并不是在JAX性能表现最好的TPU上完成的。虽然现在在开发者中，Pytorch依然比Tensorflow更受欢迎。但未来，也许有更多的大模型会基于JAX平台进行训练和运行。模型最近，Keras团队为三个后端（TensorFlow、JAX、PyTorch）与原生PyTorch实现以及搭配TensorFlow的Keras2进行了基准测试。首先，他们为生成式和非生成式人工智能任务选择了一组主流

iPhone上的蜂窝数据互联网速度慢：修复 May 03, 2024 pm 09:01 PM

在iPhone上面临滞后，缓慢的移动数据连接？通常，手机上蜂窝互联网的强度取决于几个因素，例如区域、蜂窝网络类型、漫游类型等。您可以采取一些措施来获得更快、更可靠的蜂窝互联网连接。修复1–强制重启iPhone有时，强制重启设备只会重置许多内容，包括蜂窝网络连接。步骤1–只需按一次音量调高键并松开即可。接下来，按降低音量键并再次释放它。步骤2–该过程的下一部分是按住右侧的按钮。让iPhone完成重启。启用蜂窝数据并检查网络速度。再次检查修复2–更改数据模式虽然5G提供了更好的网络速度，但在信号较弱

超级智能体生命力觉醒！可自我更新的AI来了，妈妈再也不用担心数据瓶颈难题 Apr 29, 2024 pm 06:55 PM

哭死啊，全球狂炼大模型，一互联网的数据不够用，根本不够用。训练模型搞得跟《饥饿游戏》似的，全球AI研究者，都在苦恼怎么才能喂饱这群数据大胃王。尤其在多模态任务中，这一问题尤为突出。一筹莫展之际，来自人大系的初创团队，用自家的新模型，率先在国内把“模型生成数据自己喂自己”变成了现实。而且还是理解侧和生成侧双管齐下，两侧都能生成高质量、多模态的新数据，对模型本身进行数据反哺。模型是啥？中关村论坛上刚刚露面的多模态大模型Awaker1.0。团队是谁？智子引擎。由人大高瓴人工智能学院博士生高一钊创立，高

特斯拉机器人进厂打工，马斯克：手的自由度今年将达到22个！ May 06, 2024 pm 04:13 PM

特斯拉机器人Optimus最新视频出炉，已经可以在厂子里打工了。正常速度下，它分拣电池（特斯拉的4680电池）是这样的：官方还放出了20倍速下的样子——在小小的“工位”上，拣啊拣啊拣：这次放出的视频亮点之一在于Optimus在厂子里完成这项工作，是完全自主的，全程没有人为的干预。并且在Optimus的视角之下，它还可以把放歪了的电池重新捡起来放置，主打一个自动纠错：对于Optimus的手，英伟达科学家JimFan给出了高度的评价：Optimus的手是全球五指机器人里最灵巧的之一。它的手不仅有触觉

首个自主完成人类任务机器人出现，五指灵活速度超人，大模型加持虚拟空间训练 Mar 11, 2024 pm 12:10 PM

这周，由OpenAI、微软、贝佐斯和英伟达投资的机器人公司FigureAI宣布获得接近7亿美元的融资，计划在未来一年内研发出可独立行走的人形机器人。而特斯拉的擎天柱也屡屡传出好消息。没人怀疑，今年会是人形机器人爆发的一年。一家位于加拿大的机器人公司SanctuaryAI最近发布了一款全新的人形机器人Phoenix。官方号称它能以和人类一样的速率自主完成很多工作。世界上第一台能以人类速度自主完成任务的机器人Pheonix可以轻轻地抓取、移动并优雅地将每个对象放置在它的左右两侧。它能够自主识别物体的

See all articles

基于结构化数据的异常检测再思考: 我们究竟需要怎样的图神经网络？

面向结构化图数据的异常检测：背景与挑战

另辟蹊径：谱域视角下的图异常检测

图异常检测的新利器：Beta 小波图神经网络

总结

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题