基于对抗梯度的探索模型及其在点击预估中的应用-人工智能-PHP中文网

探索与利用（Exploration-Exploitation，E&E）方法通常用于处理大规模在线推荐系统中的数据循环问题。过去的研究通常认为模型预估不确定度高意味着潜在收益也较高，因此大部分研究文献聚焦到对不确定度的估计上。对于采用流式训练的在线推荐系统而言，探索策略会对训练样本的收集产生较大影响，进而影响模型的进一步学习。然而，当前大多数探索策略并不能很好的建模被探索的样本如何对后续模型学习产生影响。因此，我们设计了一个拟探索（Pseudo-Exploration）模块来模拟样本被成功探索并展现后对推荐模型后续学习的影响。

拟探索过程通过在模型输入中添加对抗扰动来实现，我们同时也给出了该过程相应的理论分析以及证明。基于此，我们将该方法命名为基于对抗梯度的探索策略（ A dversarial G radient driven E xploration，以下简称 AGE ）。为了提高探索的效率，我们还提出了一个动态门控单元用来过滤低价值样本，避免将资源浪费在低价值的探索上。为了验证AGE算法的有效性，我们不仅在公开学术数据集上进行了大量的实验，也将AGE模型部署到了阿里妈妈展示广告平台上并取得了良好的线上收益。该工作已被KDD 2022 Research Track收录为Full Paper，欢迎阅读交流。

论文： Adversarial Gradient Driven Exploration for Deep Click-Through Rate Prediction

下载： https://arxiv.org/abs/2112.11136

2. 背景

在广告系统中，点击率（CTR）预估模型通常采用流式方式加以训练，而流式数据的来源又是由部署在线上的CTR模型产出，这就产生了所谓的数据循环问题。冷启动与长尾广告由于没有充分展现，CTR模型缺乏对这部分广告的训练数据，这也导致模型对这部分广告的估计可能存在较大误差，会使得这些广告更加难以展现，进而难以完成冷启动过程。具体而言，图一给出了广告真实点击率与展现数量之间的关系：我们系统中，一个新广告的展现平均需要达到约一万次，其点击率才能达到收敛态。这给许多在线系统带来了一个常见的难题，即如何在保证用户体验的前提下，为这些广告做好冷启动。

基于对抗梯度的探索模型及其在点击预估中的应用

图一：广告CTR和展现次数之间的关系

探索和利用（E&E）算法通常被用来解决上述问题。在推荐或广告系统中，常见的方法（如Contextual Multi-Armed Bandits，上下文多臂老虎机）一般会将该问题按照如下方式加以建模。在每步中，系统会基于策略P选择一个操作（即为用户推荐一个项目_ _）。为了最大化累积奖励（通常使用总点击量来衡量），系统需要权衡当前是偏重探索，还是偏重利用。先前的研究通常认为，高不确定性是潜在回报的衡量指标。一方面，策略P需要优先选择当前效用较大的项目以最大化本轮收益；另一方面，算法也需要选择不确定度较大的操作以实现探索。如果用来表示权衡探索和利用的策略，那么系统对项目最终打分可以用如下公式表示：

不确定性估计已成为许多E&E算法的核心模块。不确定性可能源于数据的可变性、测量噪声和模型不稳定性（例如：参数的随机性），典型的估计方法包括蒙特卡洛MC-Dropout、贝叶斯神经网络、预测不确定性的高斯过程，以及基于梯度范数（模型权重）的不确定性建模等。在此基础上，有两种典型的探索策略：基于UCB的方法通常采用潜在回报的上限作为最终打分[1,2]，而基于汤普森采样的方法是通过从估计的概率分布中抽样来完成 [3]。

3. 方法介绍

我们认为，上述方法并未考虑一个完整的探索闭环。对于数据驱动的在线系统而言，探索的最终收益来自于从探索过程中获取的反馈数据，以及反馈数据对于模型的训练与更新。而模型预估的不确定度本身并不能完全反映整个反馈闭环。为此，我们引入了一个拟探索模块，用于模拟完成探索动作后反馈数据对于模型的影响，并以此来衡量探索的有效性。分析发现，探索的有效性不仅取决于模型的预估不确定度，还取决于“对抗扰动”的大小。所谓对抗扰动，指的是在模型的输入上加入的固定模长的扰动中使得模型输出变化最大的扰动向量。在论文中，我们也证明了，模型利用被探索的数据进行一次训练后，模型输出变化的期望等价于在输入向量中加入模长为不确定度、扰动向量为对抗梯度的增量向量。我们验证了按照这种方式进行建模，可以闭环地估计出被探索样本对模型的后续影响，从而估计出被探索样本的真实价值。

我们将这种方法称为基于对抗梯度的探索（Adversarial Gradient driven Exploration），简称AGE。AGE模型由拟探索模块（Pseudo-Exploration Module）与动态门控阈值单元（Dynamic Gating Unit）两部分组成，其整体结构如图二所示。

基于对抗梯度的探索模型及其在点击预估中的应用

图二：AGE结构图

其中部分的详细介绍详见3.1节，部分的详见3.3节。

3.1 拟探索模块（Pseudo-Exploration Module）

3.1.1 模块简介

拟探索模块的主要目的是定量模拟模型使用探索样本加以训练后，对该样本打分的变化，从而估计探索对于模型的闭环影响。经过推导，我们发现可以通过公式(2)来完成上述过程，其中代表了探索后模型对该样本的打分，我们将其用于最终的排序。

上式表示我们不需要对原有模型参数进行任何操作，只需要在输入的表征中加上对抗梯度，预估不确定度以及手工设定的超参数的乘积，即可完成对探索后模型预估分的模拟。其中参数与的计算方法，我们在下一节中介绍。本节后续我们将介绍拟探索模块中公式(2)的详细推导过程。

3.1.2 详细推导

对于每条数据样本而言，模型的训练将会影响两部分参数：该样本对应的表征（包含商品、用户embedding等）与模型参数。因为模型参数在训练中的目标是适应所有样本而不是单条样本，所以我们可以认为训练单条样本主要会对样本对应的表征产生影响，而模型参数本身只需要微小的调整。因此，在后续研究中，我们将忽略的调整，而仅关注样本对应的表征的变化。假设包含表征的样本真实label为，训练时，我们需要寻找到的更新量，以最小化损失函数。基于此，我们定义：

基于对抗梯度的探索模型及其在点击预估中的应用

其中代表训练中使用的损失函数，而在CTR预估任务中一般使用交叉熵损失函数。同时，我们用来约束表征的最大变化。为了简化书写，后续我们将上述公式右侧写为。

依据拉格朗日中值定理，在的二范数接近0的情况下，我们可以将上述损失函数公式(3)推导为：

基于对抗梯度的探索模型及其在点击预估中的应用

我们观察公式(4)，易发现该损失函数在与两个向量有相反的方向时，获得最小值。在公式(3)中，我们约束对抗扰动。因此，通过求解公式(3)，我们得到：

基于对抗梯度的探索模型及其在点击预估中的应用

实践中，我们用来替代公式(5)中的归一化梯度。通过求导链式法则，可以展开为和两部分。进一步计算，得到：

基于对抗梯度的探索模型及其在点击预估中的应用

在上式中，我们将重新缩放到以保持等式的成立。尽管含义不同，但它们都是手动调节的超参数，故我们可以直接以完成替换。我们进一步简化公式(6)为：

基于对抗梯度的探索模型及其在点击预估中的应用

上式中，归一化梯度表示模型输出相对于输入表征的导数方向。由于真实的用户反馈在探索时无法得到，我们将使用预估不确定度来衡量预测得分与真实用户反馈之间的差值。

公式(7)中，我们找到了在的约束下可以最大化改变模型预测输出的解析解（推导与公式(3)到公式(5)相同）。进一步，我们也发现上述对输入表征添加的过程与对抗扰动（见公式(9)）的形式相同。

基于对抗梯度的探索模型及其在点击预估中的应用

因此，我们利用对抗梯度来的替代公式(7)中的，并将我们的方法命名为基于对抗性梯度的探索算法。

公式(9)表明，AGE最有效的探索方式为给表征输入加入对抗扰动，以扰动后模型的输出结果为排序因子：以对抗梯度为输入表征的扰动向量方向，以及以预测不确定性度的扰动力度。于是，在得到和后，我们可以用下述公式来计算探索后的模型预测分数，该公式即为前述公式(2)。

3.2 实现细节

在AGE中，我们采用MC-Dropout的方法估计不确定度。具体说来，MC-Dropout为深度模型中的每个神经元赋予随机Mask权重，具体做法如下公式(11)所示。该方法的一个好处是，我们可以在不改变模型原始结构的基础上直接获取不确定性。在实际操作中，可以通过UCB的思想计算dropout的方差来表示不确定度，或者参考汤普森随机采样的方式通过计算采样与均值的差异来计算不确定度，也即公式（12）和公式（13）。

基于对抗梯度的探索模型及其在点击预估中的应用

归一化对抗梯度可以根据公式(8)中的快速梯度法（FGM）来计算获得。为了更加精确地计算出对抗梯度，我们还可以进一步利用近端梯度下降（PGD）方法，多步迭代更新梯度，如公式（14）所示。

基于对抗梯度的探索模型及其在点击预估中的应用

3.3 动态门控阈值单元（Dynamic Gating Unit）

在实践中，我们发现并非所有广告都值得探索。在一般的Top-K广告系统中，能够为最终用户展现的广告数量是相对较少。因此，本身点击率低的广告（比如广告本身质量较低），即使模型对这部分广告的预估存在很高的不确定性，但考虑广告系统的业务属性，其探索价值仍然是很低的。虽然我们可以通过探索获得了这些广告的大量数据，使得这些广告被模型充分训练而估计的更加准确；但因为这些广告的本身过低的点击率会使得即使充分探索后，这些广告依然无法自行获取流量，这样的探索无疑是低效的。在本文中，我们尝试了一种简单的启发式方法来提高探索的效率——如果模型对该广告的预估分数高于该广告在所有人群中的平均点击率，我们将进行探索；否则，探索将不会发生。

为了计算广告的平均点击率，我们引入了动态门控阈值单元（DGU）模块。DGU仅使用广告侧特征作为输入来预估广告的平均点击率。当模型的预估点击率低于DGU模块预估的广告平均点击率时，不予探索，反之则进行正常的探索。该过程如下式所示：

基于对抗梯度的探索模型及其在点击预估中的应用

最终，我们将代入公式(10)中，获得如下AGE探索模型最终完整的计算方式。

4. 实验评测

4.1 离线实验

我们对比了三大类基线方法，包括基于随机采样的探索方法，基于深度模型的探索方法，以及基于梯度的探索方法，结果如表1所示。观察可得，基于汤普森采样（TS）方法构建的基线模型均优于基于UCB的模型，证明TS是一种更好的衡量模型不确定度的算法。此外，我们可以观察到AGE算法优于所有的基线方法，这也证明了AGE方法的有效性。具体而言，AGE-TS和AGE-UCB的表现均优于最好基线UR-gradient-TS和UR-gradient-UCB [4]，提升数值分别为5.41%和15.3%。而AGE-TS方法相比于不进行探索的基准方法提高了整整28.0%的点击量。值得注意的是，基于AGE的UCB和TS算法AGE-UCB和AGE-TS取得了相似的效果，基于gradient的UCB和TS算法并非如此，这也证明了AGE可以弥补UCB方法的不稳定性。

基于对抗梯度的探索模型及其在点击预估中的应用

表1：离线实验结果

我们也进行了大量的消融实验来证明了各个模块的有效性。如表2所示，阈值单元、对抗梯度、不确定度单元，三者均不可或缺。为了进一步确定DGU的效果，我们尝试了不同的固定阈值参数，最后也发现其效果也不及DGU的动态阈值。

基于对抗梯度的探索模型及其在点击预估中的应用

表2：消融实验结果

4.2 在线实验

我们也将AGE模型部署到阿里妈妈展示广告系统中，为了准确评估模型的探索价值，我们设计了基于公平桶的评测方法。如图三所示，我们首先设置桶C和桶D用于收集数据。在桶D中，我们部署AGE等探索算法，而在桶C中，我们采用不做探索的常规CTR模型。经过一段时间之后，我们将桶C和桶D获取的反馈数据分别应用于公平桶A和B上部署模型的训练。最终，我们将比较公平桶A和B上的模型效果。在线实验中，我们使用几个标准指标进行评估，包括点击率CTR、被探索广告的展现数量PV和预测CTR与真实CTR之比PCOC。此外，我们还引入了一个用于衡量广告主的满意度的业务指标（AFR）。

基于对抗梯度的探索模型及其在点击预估中的应用

图三：公平桶实验方案

如表3所示，上述指标都得到了有效的提升。其中，AGE明显优于所有其他方法：CTR和PV分别比基线模型高6.4%和3.0%。同时AGE模型的使用还提升了模型的预测精度，即预估准度PCOC更接近1。更重要的是，AFR指标也有5.5%的提升，这表明我们的探索方法可以有效提升广告主的体验。

基于对抗梯度的探索模型及其在点击预估中的应用

表3：在线实验结果

5. 总结

与大多数专注于估计潜在回报的探索&利用方法不同，我们的方法AGE从在线学习的数据驱动的角度重新构建了这一问题。除了可以估计当前模型预测的不确定度外，AGE算法借助拟探索模块，更进一步地考虑探索样本对模型训练的后续影响。我们在学术研究数据集和生产链路上都进行了A/B测试实验，相关结果均证实了AGE方法的有效性。今后我们会将AGE部署于更多的应用场景中。

以上是基于对抗梯度的探索模型及其在点击预估中的应用的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

AI Hentai Generator

免费生成ai无尽的。

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7513

CakePHP 教程

1378

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

全球最强开源 MoE 模型来了，中文能力比肩 GPT-4，价格仅为 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想象一下，一个人工智能模型，不仅拥有超越传统计算的能力，还能以更低的成本实现更高效的性能。这不是科幻，DeepSeek-V2[1]，全球最强开源MoE模型来了。DeepSeek-V2是一个强大的专家混合（MoE）语言模型，具有训练经济、推理高效的特点。它由236B个参数组成，其中21B个参数用于激活每个标记。与DeepSeek67B相比，DeepSeek-V2性能更强，同时节省了42.5%的训练成本，减少了93.3%的KV缓存，最大生成吞吐量提高到5.76倍。DeepSeek是一家探索通用人工智

AI颠覆数学研究！菲尔兹奖得主、华裔数学家领衔11篇顶刊论文｜陶哲轩转赞 Apr 09, 2024 am 11:52 AM

AI，的确正在改变数学。最近，一直十分关注这个议题的陶哲轩，转发了最近一期的《美国数学学会通报》（BulletinoftheAmericanMathematicalSociety）。围绕「机器会改变数学吗？」这个话题，众多数学家发表了自己的观点，全程火花四射，内容硬核，精彩纷呈。作者阵容强大，包括菲尔兹奖得主AkshayVenkatesh、华裔数学家郑乐隽、纽大计算机科学家ErnestDavis等多位业界知名学者。AI的世界已经发生了天翻地覆的变化，要知道，其中很多文章是在一年前提交的，而在这一

替代MLP的KAN，被开源项目扩展到卷积了 Jun 01, 2024 pm 10:03 PM

本月初，来自MIT等机构的研究者提出了一种非常有潜力的MLP替代方法——KAN。KAN在准确性和可解释性方面表现优于MLP。而且它能以非常少的参数量胜过以更大参数量运行的MLP。比如，作者表示，他们用KAN以更小的网络和更高的自动化程度重现了DeepMind的结果。具体来说，DeepMind的MLP有大约300,000个参数，而KAN只有约200个参数。KAN与MLP一样具有强大的数学基础，MLP基于通用逼近定理，而KAN基于Kolmogorov-Arnold表示定理。如下图所示，KAN在边上具

谷歌狂喜：JAX性能超越Pytorch、TensorFlow！或成GPU推理训练最快选择 Apr 01, 2024 pm 07:46 PM

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow，7项指标排名第一。而且测试并不是在JAX性能表现最好的TPU上完成的。虽然现在在开发者中，Pytorch依然比Tensorflow更受欢迎。但未来，也许有更多的大模型会基于JAX平台进行训练和运行。模型最近，Keras团队为三个后端（TensorFlow、JAX、PyTorch）与原生PyTorch实现以及搭配TensorFlow的Keras2进行了基准测试。首先，他们为生成式和非生成式人工智能任务选择了一组主流

你好，电动Atlas！波士顿动力机器人复活，180度诡异动作吓坏马斯克 Apr 18, 2024 pm 07:58 PM

波士顿动力Atlas，正式进入电动机器人时代！昨天，液压Atlas刚刚「含泪」退出历史舞台，今天波士顿动力就宣布：电动Atlas上岗。看来，在商用人形机器人领域，波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后，短短十几小时内，就已经有一百多万观看。旧人离去，新角色登场，这是历史的必然。毫无疑问，今年是人形机器人的爆发年。网友锐评：机器人的进步，让今年看起来像人类的开幕式动作、自由度远超人类，但这真不是恐怖片？视频一开始，Atlas平静地躺在地上，看起来应该是仰面朝天。接下来，让人惊掉下巴

如何在iPhone中撤消从主屏幕中删除 Apr 17, 2024 pm 07:37 PM

从主屏幕中删除了重要内容并试图将其取回？您可以通过多种方式将应用程序图标放回屏幕。我们已经讨论了您可以遵循的所有方法，并将应用程序图标放回主屏幕如何在iPhone中撤消从主屏幕中删除正如我们之前提到的，有几种方法可以在iPhone上恢复此更改。方法1–替换应用程序库中的应用程序图标您可以直接从应用程序库将应用程序图标放置在主屏幕上。第1步–横向滑动以查找应用程序库中的所有应用程序。步骤2–找到您之前删除的应用程序图标。步骤3–只需将应用程序图标从主库拖动到主屏幕上的正确位置即可。这是将应用程序图

FisheyeDetNet：首个基于鱼眼相机的目标检测算法 Apr 26, 2024 am 11:37 AM

目标检测在自动驾驶系统当中是一个比较成熟的问题，其中行人检测是最早得以部署算法之一。在多数论文当中已经进行了非常全面的研究。然而，利用鱼眼相机进行环视的距离感知相对来说研究较少。由于径向畸变大，标准的边界框表示在鱼眼相机当中很难实施。为了缓解上述描述，我们探索了扩展边界框、椭圆、通用多边形设计为极坐标/角度表示，并定义一个实例分割mIOU度量来分析这些表示。所提出的具有多边形形状的模型fisheyeDetNet优于其他模型，并同时在用于自动驾驶的Valeo鱼眼相机数据集上实现了49.5%的mAP

特斯拉机器人进厂打工，马斯克：手的自由度今年将达到22个！ May 06, 2024 pm 04:13 PM

特斯拉机器人Optimus最新视频出炉，已经可以在厂子里打工了。正常速度下，它分拣电池（特斯拉的4680电池）是这样的：官方还放出了20倍速下的样子——在小小的“工位”上，拣啊拣啊拣：这次放出的视频亮点之一在于Optimus在厂子里完成这项工作，是完全自主的，全程没有人为的干预。并且在Optimus的视角之下，它还可以把放歪了的电池重新捡起来放置，主打一个自动纠错：对于Optimus的手，英伟达科学家JimFan给出了高度的评价：Optimus的手是全球五指机器人里最灵巧的之一。它的手不仅有触觉

See all articles

基于对抗梯度的探索模型及其在点击预估中的应用

1. 摘要

2. 背景

3. 方法介绍

3.1 拟探索模块（Pseudo-Exploration Module）

3.2 实现细节

3.3 动态门控阈值单元（Dynamic Gating Unit）

4. 实验评测

4.1 离线实验

4.2 在线实验

5. 总结

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题