图算法在阿里风控系统中的实践-人工智能-PHP中文网

图算法可以提升风险识别模型的对抗能力。平台上大部分的“坏事”只是少数人干的，“坏人”有很多马甲，我们可以通过“关系”找出蛛丝马迹，提前识别和处置。比如下图中黄色的点，假设它是一个有异常行为的用户，仅凭他自身的行为很难判断他是一个欺诈用户，但是可以通过分析和他关联的其他三个欺诈用户（黑点）来确定他是一个欺诈用户。同时我们把这四个账户关联紧密的账户都找出来，发现是一个团伙，提前的批量处置这些账号，可以提升作恶的成本。

图算法在阿里风控系统中的实践

此外，异质图可以自然的全局融合各模态、各风险对象数据，计算出各个不同对象的表征，进而进行不同风险的识别，来应对排列组合式的复杂性

3、图算法的历史与现状

基于图算法的重要性，阿里电商风控从 2013 年就使用图算法。

起初图算法被用来构建整个账号库的关系网络。这个关系数据是欺诈、账户安全、反作弊、假货等所有风险防控场景所需的基础数据，主要使用的数据有设备信息、手机号等媒介数据。它主要是刻画账户与账户之间的相关性、关系类型和群体识别等。目前已对该关系网络建立了从生产到应用的闭环反馈通道。

底层的关系数据非常多，整体的进行一次关系数据的汇总、清洗、图计算和存储，成本是很高的，而且后面还要保持不断的更新，所以构建关系网络的成本很高，但因为我们有很多风险的模型、策略依赖这个关系网络，所以还是很值得的。

图算法在阿里风控系统中的实践

而对于图神经网络，我们在 2016 年就开始探索应用，那时我们还叫 GGL（Geometric Graph Learning，几何图学习），当时还没有直接可用的图神经网络算法框架，所以我们用 C++ 实现了一个 GGL 算法框架。在 2018 年的时候转移到了阿里计算平台提供的 Graph learn 上，这个框架目前也是开源的，我们也在这个框架中贡献了一些图算法代码。

图算法在阿里风控系统中的实践

电商风控场景丰富，在图算法验证阶段选择合适的场景也尤为重要。风险场景中占比较大的行为风险“判断标准”不直观，在工业场景里行为风险白样本混杂着很多还未被发现的黑样本，当图算法将白样本判断为黑样本时很难判断是误召回还是增益召回，这会影响模型的调优和上线效果的判断。相反，内容安全场景，比如垃圾消息、辱骂，是一个有“直观判断标准”的场景，更适合验证图算法有效性。所以我们先在内容安全场景探索算法，验证有效和沉淀最佳实践后，铺开应用到行为风险场景。

目前为止，阿里电商各类风险业务都会用到图算法。整个图算法应用框架如下图，首先在底层维护一个关系数据层，汇集和清洗各类关系数据，便于上层的应用；在数据层之上，沉淀常用的图算法；再上一层利用关系数据层和算法层构建了账号关系网络，它横向支撑业务层的各类风险场景的防控；在最上层的业务层，结合具体风险的特点，我们利用这些图算法和关系数据构建图模型，识别各类业务风险。

图算法在阿里风控系统中的实践

接下来的分享将主要介绍“交互内容风险”、“商品禁限售”、“假货治理”这三类风险应用的一些图算法。

二、交互内容风控的图算法

阿里电商平台有丰富的交互内容场景，比如商品评价、评论、问大家，以及手淘逛逛、闲鱼社区等，下面以闲鱼留言垃圾广告的识别为例来介绍内容风控图算法。

图算法在阿里风控系统中的实践

在闲鱼 APP 里的商品留言里很容易出现“垃圾广告”这类的内容风险，比如兼职、刷单、卖减肥药等，且对抗性很强，比如上面截图里的“兄弟看看我”，其真正的广告不在文字本身，而在该用户的首页。

闲鱼留言的垃圾广告识别是我们图神经网络算法第一个落地应用的场景，这个识别模型我们简称为 GAS。整个模型由一个异质图和一个同质图构成。异质图学习每个节点的局部表征，包含商品、留言和用户，同质图则是一个 comment graph 学习不同留言的全局表征，最后将这四个表征融合在一起进行二分类模型训练。

图算法在阿里风控系统中的实践

训练整体数据集包括留言有 3kw+，商品 2kw+, 用户 900w+，上线后相比原来的 MLP 模型识别多召回了 30% 的风险。此外，通过消融实验也证实，加入全局信息提升也很显著，这是由于垃圾广告本身的特点——需要大量转发才有较好的收益。这个工作最终整理并发表于 paper[1]，获得了 CIKM2019 的 Best Applied Research Paper。

图算法在阿里风控系统中的实践

三、商品内容风控的图算法

这里主要介绍两类商品内容风控的图算法：一类是商品图结构学习，一类是商品图结构与专业知识图谱的融合。

图算法在阿里风控系统中的实践

商品风险管控主要是管控“禁限售”风险，很多种类的商品是国家法律法规规定不能售卖的，比如国家保护动植物、作弊造假、管制医疗器械等。

商品的管控很复杂，商品数据是多数据流、多通道、多模态的：

① 多数据流：标题、描述、主图、副图、详情图、SKU；

② 多通道：文字的音、形、意，图片的 RGB；

③ 多模态：文字、图片、元信息（价格、销量）。

同时商品内容风险也是复杂多样且对抗激烈的，比如上图中看上去是卖串珠，但实际上是卖象牙。

商品内容风控图算法主要有两类：一种是多模态融合的模型，用深度模型构建一个商品的神经网络，通过多模态的融合进行多任务的学习，这是商品局部信息的学习；另一种是为了提升对风险的召回，用异质图建立商品和商品、商品和卖家、卖家和卖家之间的关系，进行全局信息的融合学习。

1、商品图的图结构学习

GCN 的本质是融合邻居特征的特征平滑，因此图神经网络的学习对图结构的质量有一定要求，好的网络图是稠密且同质率高的。然而，风险商品图稀疏且同质率比较低（0.15，对公开数据集统计发现 0.6 以上才比较好），所以我们必须对图结构进行学习。

图算法在阿里风控系统中的实践

商品图里面有三种边分别构成三种图，如下图右边框架图所示：一类是两个商品是同一卖家卖的同卖家图，第二类是两个商品被同消费者浏览过的同浏览图，第三类是两个商品的卖家有很强关联的关联卖家图。

商品图结构学习本质是加边和删边的过程：首先根据商品 embedding 用 KNN Graph 构建一个 KNN 图，之后将以上四类边和商品 embedding 一起放入 HGT 学习商品新 embedding 并对 attention 值较低的边作为噪声进行删除，新的商品 embedding 可以用来更新 KNN Graph，如此往返迭代直到 loss 收敛。在真实数据中的实践表明该图结构学习框架相比同质图/异质图，达到了 SOTA 的效果。

图算法在阿里风控系统中的实践

2、图计算与风险知识图谱的融合

商品图算法的提升算法是图计算与风险知识图谱的融合。有些商品风险很难通过常识判断，需要结合一定的专业领域知识。所以针对这些具体的风险领域知识点构建了特定的知识图谱，以此来辅助模型识别和人工审核。

比如下图左侧显示的两个商品，直观看是卖简单的饰品，实际上是卖藏羚羊角，而藏羚羊是国家一级保护动物，它的相关产品是禁售的，我们通过该商品和藏羚羊相关知识进行匹配可识别出该商品风险。融合算法框架如下图右侧所示：模型目标是判断候选商品和风险知识点是否匹配。Item p 是商品图文表征，Risk-Point R 是知识点表征，通过实体识别、实体链接和关系抽取等得到商品和该知识点的子图，再用 GNN 计算子图的表征，最后用该表征进行风险的分类识别。其中，CPR 是商品表征和知识点表征的融合，它主要用来指导图表征学习一些全局信息。实践表明，相比商品多模态识别，加入风险知识图谱对长尾风险的召回提升 10 个点以上。

图算法在阿里风控系统中的实践

在此基础上，我们还尝试引入了全局商品图。当商品内容直接关联知识图谱也不能识别风险时，可以进一步引入商品和商品之间的关联辅助判断，比如下图中某个标有“幼崽也有”的商品和“红腹松鼠”知识没有强匹配关系，但这个商品同卖家的另一个商品“红腹”和“红腹松鼠”知识匹配，因此可推理该商品实际上卖的是红腹松鼠（二级保护动物，禁售）。实践表明，做知识推理时引入整个大的商品图能再提高长尾风险召回 3% 以上。

图算法在阿里风控系统中的实践

四、动态异质图的风控实践

前面介绍的图算法主要还是静态图的挖掘应用，但是很多的风险场景存在动态图的风险模式。

比如售假商家先注册，再批量发布大量商品，炒作吸引流量，然后快速进行售假，在这一系列动作中时间维度的图结构变化对我们的风险识别很重要，因此动态图也是图算法探索与应用的重点方向。

动态图最大的挑战是如何设计和搜索到好的图结构。一方面，动态图在原有的异质图基础上引入了时间维度，比如有 30 个时刻，那么动态图的参数（信息量）是异质图的 30 倍，这给学习带来很大压力；另一方面，由于风险的对抗性，动态图需要有较强的鲁棒性。

图算法在阿里风控系统中的实践

1、动态图自动学习

据此，我们提出了基于 Attention 的动态 GNN + AutoML，在限定一定参数空间下，选择最好的模型结构（DHGAS）。该模型的核心是通过自动学习对模型结构寻优，如下图所示：首选将动态图分解成不同时刻的异质图，并对不同时刻和不同节点设置不同的函数空间来表示商品表征的变化空间（N*T 种，N：节点种类；T：时间空间），对不同时刻和不同边类型也设置不同的函数空间来表示信息传播的路径空间（R*T 种，R：边种类；T：时间空间），最后节点和邻居聚合的时候有 R*T*T 种聚合的方式（两个 T 分别是边两端节点的时间戳。

显然整个搜索空间庞大，我们尝试限定参数空间，借助自动机器学习技术构建 supernet，让模型自动搜索到最优网络架构。具体做法：限制 N*T 的函数空间数目为 K_N，R*T 函数空间数据为 K_R，R*T*T 的模长为 K_Lo，比如 N=6，T=30，理论有 N*T=180 个函数空间，实际限制到 K_N=10。

该算法当前已落地到“假货卖家识别”，“商品禁限售的恶意商家识别”等场景，且和业界主流算法对比都得到了 SOTA 的结果，具体可以查阅论文[2]。

图算法在阿里风控系统中的实践

2、动态图鲁棒学习

由于风险的对抗性，动态图需要有较强的鲁棒性，其本质是希望动态图能学到一些本质的 pattern，比如下图中示例子图的本质 pattern 是冰激凌销量上升是由于天气变热了，而不是溺水人数增加。

我们希望鲁棒性学习解决电商风控动态图的一些分布偏移问题：

（1）特征偏移：比如如果过度依赖历史违规信息这类特征，对新注册的问题会员召回会不佳；

（2）结构偏移：比如过度依赖垃圾广告会员的度密集子结构，会把很活跃的正常会员误召回；

（3）时间偏移：恶意用户随着防控会发生明显的行为变异。

图算法在阿里风控系统中的实践

对此，我们提出了一个算法 DIDA，核心思想如下图所示：在学习动态图时学习两个 pattern——橙色代表的本质 pattern 和绿色代表的非本质 pattern，仅用本质 pattern 的 loss（L）+ 非本质 patterns 组合的 loss 方差（Ldo）作为模型最终学习的 loss。非本质 patterns 组合的 loss 方差（Ldo）的设计思想是：假设图中绿色的 a3 是非本质的 pattern，那么把这个绿色的 a3 换成其他非本质 patterns 如 b3、c3 等应该对模型的 loss（判别能力）影响不大。因此我们可以将非本质 patterns 的 loss 方差加入模型学习，最终预测阶段则只用本质 pattern 来进行分类。目前该算法已经落地到商品内容风控场景中，也整理出 paper[3]。

图算法在阿里风控系统中的实践

五、ICDM2022 比赛：大规模电商图上的风险商品检测

“ICDM2022 比赛：大规模电商图上的风险商品检测”是我们今年主办的算法比赛，提供的数据是真实场景的脱敏数据。最终从提交的技术代码和报告中也收获了一些启发：

（1）自监督预训练对于效果提升有比较大帮助，但是需要选择合适的自监督任务；

（2）GNN 结合标签传播可以带来显著提升，在之前的图算法应用中由于担心标签泄露而丢弃了该部分数据，但在真实数据中实践后发现并不明显。猜测原因是现在的图形网络只是做到了信息融合，还没做到推理或者推理能力较弱；

（3）解耦深度和层数有普遍提升, 可以传播一次的同时聚合好几次。

图算法在阿里风控系统中的实践

六、图算法落地方式总结和展望

结合我们的经验，总结了以下图算法落地方式：

（1）图算法框架/平台：应该有个图算法框架沉淀技术和最佳实践，提升技术的复用性。

（2）半自动化建模：为了提高建模的效率，在数据层面我们最好对底层的关系媒介数据做个清洗和汇总，在建模层面可以提供一些组件（MetaPath/MetaGraph 选择组件，图采样组件，向量检索组件等）提高建模效率。

（3）自动化调用：可以自动化调用只依赖输入样本的图算法或图模型，不需要了解图模型，方便其他不熟悉图算法的风险控制同学进行模型优化使用，比如团伙识别，商品回捞，风险用户回捞等。

（4）生产（自监督）图表征：作为单独的模态输入到模型中使用，不影响原来的建模方式，大幅提升图的应用场景。

图算法在阿里风控系统中的实践

后续工作展望：

（1）大规模的图自监督表征学习。我们有上千个风险模型，其中还有很多没应用上图算法，因此我们下一步是做大规模的图自监督表征，以扩大图特征的应用范围，帮助提升业务效果。该工作存在工程和算法上的双重挑战：首先是工程上，我们至少有数十亿节点和数百亿的边供大规模学习，其次是算法上，图表征不仅要能覆盖常用的关系表征，还要学到更高阶的图的结构的特征，具有很强的通用性，能应用到各个场景。

（2）在具体的风控场景中探索实现图的推理能力，目前图算法更多的还是知识的融合，推理能力比较薄弱，无法应对风险的高对抗性。从客观上我们需要我们的模型具备很强的智能所以图的推理能力很重要。目前拟依靠闲鱼社区的丰富交互场景和内容来进行算法的探索。

（3）在动态异质图的频域研究、可解释性方面有更多探索落地。频域研究的目的是在动态图中学到更多的图结构变化的细节。可解释则帮助我们了解算法是否真正学到了本质的特征，一方面帮助我们完善算法，另一方面也可以更好的提供给业务同学进行应用落地。

图算法在阿里风控系统中的实践

以上探索方向我们也在寻求学术合作，特别是图推理方向。同时，我们现在也在招聘图算法的同学，有兴趣的同学可以联系我。

七、Reference

1. Spam Review Detection with Graph Convolutional Networks. CIKM2019 Best Applied Research Paper.

2. Dynamic Heterogeneous Graph Attention Neural Architecture Search. AAAI2023.

3. Dynamic Graph Neural Networks Under Spatio-Temporal Distribution Shift. NeurIPS2022.

八、问答环节

Q1：风控场景的图表征有什么特殊的挑战，相比其他领域的图表征？

A1：三个最主要的挑战：首先图结构比较差，同质率较低；其次是图的鲁棒性问题，在我们的场景里面特别是动态图，它的分布漂移还是很严重的，还有另外一个问题黑样本的风险浓度很低，并不是说 1:10 或者 1:20 之类的，在我们的图算法里面有些风险的浓度是 1:1w+ 以上的，所以我们的样本是极度极度不均衡的，这也是我们需要去解决的。

Q2：图联邦学习目前算法模型如何，行业是否有比较成熟的解决方案？你们对图联邦学习有没有一些应用和一些考虑？

A2：我们现在主要还是用在我们电商场景里面，当然我们还有一些非电商业务，不过这些数据都是我们自己的数据我们还是可以直接使用进行风控的，所以现在还没有用到联邦学习，但是图联邦学习后面还是有必要用的，因为现在为了信息安全都在做数据切割和隔离，不同域的数据是不能打通来使用的，所以后面图联邦学习后面应该会成为我们一个探索应用方向。

以上是图算法在阿里风控系统中的实践的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

AI Hentai Generator

免费生成ai无尽的。

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7481

CakePHP 教程

1377

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

CLIP-BEVFormer：显式监督BEVFormer结构，提升长尾检测性能 Mar 26, 2024 pm 12:41 PM

写在前面&笔者的个人理解目前，在整个自动驾驶系统当中，感知模块扮演了其中至关重要的角色，行驶在道路上的自动驾驶车辆只有通过感知模块获得到准确的感知结果后，才能让自动驾驶系统中的下游规控模块做出及时、正确的判断和行为决策。目前，具备自动驾驶功能的汽车中通常会配备包括环视相机传感器、激光雷达传感器以及毫米波雷达传感器在内的多种数据信息传感器来收集不同模态的信息，用于实现准确的感知任务。基于纯视觉的BEV感知算法因其较低的硬件成本和易于部署的特点，以及其输出结果能便捷地应用于各种下游任务，因此受到工业

使用C++实现机器学习算法：常见挑战及解决方案 Jun 03, 2024 pm 01:25 PM

C++中机器学习算法面临的常见挑战包括内存管理、多线程、性能优化和可维护性。解决方案包括使用智能指针、现代线程库、SIMD指令和第三方库，并遵循代码风格指南和使用自动化工具。实践案例展示了如何利用Eigen库实现线性回归算法，有效地管理内存和使用高性能矩阵操作。

探究C++sort函数的底层原理与算法选择 Apr 02, 2024 pm 05:36 PM

C++sort函数底层采用归并排序，其复杂度为O(nlogn)，并提供不同的排序算法选择，包括快速排序、堆排序和稳定排序。

人工智能可以预测犯罪吗？探索CrimeGPT的能力 Mar 22, 2024 pm 10:10 PM

人工智能(AI)与执法领域的融合为犯罪预防和侦查开辟了新的可能性。人工智能的预测能力被广泛应用于CrimeGPT(犯罪预测技术)等系统，用于预测犯罪活动。本文探讨了人工智能在犯罪预测领域的潜力、目前的应用情况、所面临的挑战以及相关技术可能带来的道德影响。人工智能和犯罪预测：基础知识CrimeGPT利用机器学习算法来分析大量数据集，识别可以预测犯罪可能发生的地点和时间的模式。这些数据集包括历史犯罪统计数据、人口统计信息、经济指标、天气模式等。通过识别人类分析师可能忽视的趋势，人工智能可以为执法机构

改进的检测算法：用于高分辨率光学遥感图像目标检测 Jun 06, 2024 pm 12:33 PM

01前景概要目前，难以在检测效率和检测结果之间取得适当的平衡。我们就研究出了一种用于高分辨率光学遥感图像中目标检测的增强YOLOv5算法，利用多层特征金字塔、多检测头策略和混合注意力模块来提高光学遥感图像的目标检测网络的效果。根据SIMD数据集，新算法的mAP比YOLOv5好2.2%，比YOLOX好8.48%，在检测结果和速度之间实现了更好的平衡。02背景&动机随着远感技术的快速发展，高分辨率光学远感图像已被用于描述地球表面的许多物体，包括飞机、汽车、建筑物等。目标检测在远感图像的解释中

九章云极DataCanvas多模态大模型平台的实践和思考 Oct 20, 2023 am 08:45 AM

一、多模态大模型的历史发展上图这张照片是1956年在美国达特茅斯学院召开的第一届人工智能workshop，这次会议也被认为拉开了人工智能的序幕，与会者主要是符号逻辑学届的前驱（除了前排中间的神经生物学家PeterMilner）。然而这套符号逻辑学理论在随后的很长一段时间内都无法实现，甚至到80年代90年代还迎来了第一次AI寒冬期。直到最近大语言模型的落地，我们才发现真正承载这个逻辑思维的是神经网络，神经生物学家PeterMilner的工作激发了后来人工神经网络的发展，也正因为此他被邀请参加了这个

算法在 58 画像平台建设中的应用 May 09, 2024 am 09:01 AM

一、58画像平台建设背景首先和大家分享下58画像平台的建设背景。1.传统的画像平台传统的思路已经不够，建设用户画像平台依赖数据仓库建模能力，整合多业务线数据，构建准确的用户画像；还需要数据挖掘，理解用户行为、兴趣和需求，提供算法侧的能力；最后，还需要具备数据平台能力，高效存储、查询和共享用户画像数据，提供画像服务。业务自建画像平台和中台类型画像平台主要区别在于，业务自建画像平台服务单条业务线，按需定制；中台平台服务多条业务线，建模复杂，提供更为通用的能力。2.58中台画像建设的背景58的用户画像

实时加SOTA一飞冲天！FastOcc：推理更快、部署友好Occ算法来啦！ Mar 14, 2024 pm 11:50 PM

写在前面&笔者的个人理解在自动驾驶系统当中，感知任务是整个自驾系统中至关重要的组成部分。感知任务的主要目标是使自动驾驶车辆能够理解和感知周围的环境元素，如行驶在路上的车辆、路旁的行人、行驶过程中遇到的障碍物、路上的交通标志等，从而帮助下游模块做出正确合理的决策和行为。在一辆具备自动驾驶功能的车辆中，通常会配备不同类型的信息采集传感器，如环视相机传感器、激光雷达传感器以及毫米波雷达传感器等等，从而确保自动驾驶车辆能够准确感知和理解周围环境要素，使自动驾驶车辆在自主行驶的过程中能够做出正确的决断。目

See all articles

图算法在阿里风控系统中的实践

一、电商风控场景中的图算法介绍

1、阿里电商风险特点

2、图算法的重要性

3、图算法的历史与现状

二、交互内容风控的图算法

三、商品内容风控的图算法

1、商品图的图结构学习

2、图计算与风险知识图谱的融合

四、动态异质图的风控实践

1、动态图自动学习

2、动态图鲁棒学习

五、ICDM2022 比赛：大规模电商图上的风险商品检测

六、图算法落地方式总结和展望

后续工作展望：

七、Reference

八、问答环节

Q1：风控场景的图表征有什么特殊的挑战，相比其他领域的图表征？

Q2：图联邦学习目前算法模型如何，行业是否有比较成熟的解决方案？你们对图联邦学习有没有一些应用和一些考虑？

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题