连续迁移学习跨域推荐排序模型在淘宝推荐系统的应用-人工智能-PHP中文网

近些年随着深度模型的应用，工业界的推荐系统的推荐效果取得了显著的提升，随着模型的持续优化，使得仅依赖场景内数据优化模型结构和特征变得较为困难。在淘宝这样的大规模电商平台上，为了满足不同用户的多样化需求，存在一系列不同规模大小的推荐场景，如信息流推荐（首页猜你喜欢）、有好货、购后推荐、聚划算等，这些场景共享淘宝商品体系，但在具体的选品池、核心用户和业务目标等方面存在显著差异，且不同场景的规模差异极大。我们的场景有好货是淘宝精选商品的导购场景，和信息流推荐、主搜索等场景相比规模相对较小，因此如何利用迁移学习、跨域推荐等方法提升模型效果一直以来是有好货排序模型优化的重点之一。

淘宝不同业务场景的商品和用户虽有重合，但由于场景差异显著，信息流推荐等大场景的排序模型直接应用于有好货场景上效果不佳。因此，团队在跨域推荐方向做了相当多的尝试，包括利用预训练-微调、多场景联合训练、全域学习等一系列已有方法。这些方法要么效果不够明显，要么在实际上线应用中存在相当多的问题。连续迁移学习项目就是针对这些方法在业务中应用的一系列问题，提出的简单有效的新的跨域推荐方法。该方法利用连续预训练的源域模型的中间层表征结果作为目标域模型的额外知识，并在淘宝有好货推荐排序上取得了显著业务效果。

本文详细版本Continual Transfer Learning for Cross-Domain Click-Through Rate Prediction at Taobao已发布在ArXiv https://arxiv.org/abs/2208.05728。

方法

▐ 现有工作及其不足

分析现有的学术界和工业界的跨域推荐（Cross-Domain Recommendation, CDR）的相关工作，主要可分为两大类：联合训练（Joint Learning）和预训练-微调（Pre-training & Fine-tuning）。其中，联合训练方法同时优化源域（Source Domain）和目标域（Target Domain）模型。然而，这一类方法需要在训练中引入源域的数据，而源域样本通常规模很大，从而消耗巨大的计算和存储资源，很多较小业务难以承担如此大的资源开销。另一方面，这一类方法需同时优化多个场景目标，场景之间的差异也可能带来目标冲突的负面影响，因此预训练-微调类方法在工业界很多场景有着更广泛的应用。

工业界推荐系统一个重要的特点是模型训练遵循连续学习（Continual Learning）范式，即模型需要使用最新的样本，利用离线增量更新（Incremental Learning）或在线学习（Online Learning）等方式学习最新的数据分布。对于本文研究的跨域推荐任务而言，源域和目标域的模型都是遵循连续学习的训练方式。我们由此提出了一个学术和工业上将有广泛应用的新问题：连续迁移学习（Continual Transfer Learning），定义为从一个随时间变化的领域到另一个也随时间变化的领域的知识迁移。我们认为，现有的跨域推荐和迁移学习方法在工业推荐系统、搜索引擎、计算广告等的应用应当遵循连续迁移学习范式，即迁移的过程应当是持续的、多次的。原因在于数据分布变化较快，只有通过连续的迁移才可以保证稳定的迁移效果。结合这一工业推荐系统的特点，我们可以发现预训练-微调在实际应用上的问题。由于源域和目标域的场景差异，通常需要用大量样本才可以利用源域模型微调得到一个效果较好的结果。而为了实现连续迁移学习，我们需要每隔一段时间都利用最新的源域模型重新微调，造成了非常巨大的训练代价，这样的训练方式也是难以上线的。此外，利用这些大量样本微调也可能使得源域模型遗忘掉保留的有用知识，避免模型出现灾难性遗忘（Catastrophic Forgetting）问题；利用源域模型参数去替换掉原有的目标域已经学好的参数也丢弃了原有模型历史上获得的有用知识。因此，我们需要设计一个更加高效，适用于工业推荐场景的连续迁移学习模型。

本文提出了一个简单有效的模型CTNet（Continual Transfer Network，连续迁移网络）解决了上述问题。不同于传统的预训练-微调类方法，CTNet的核心思想是不能遗忘和丢弃所有模型在历史上获取的知识, 保留了原有的源域模型和目标域模型的所有参数。这些参数中保存了通过非常久的历史数据学习得到的知识（例如淘宝有好货的精排模型已经连续增量训练两年以上）。CTNet采用了简单的双塔结构，利用了一个轻量级的Adapter层将连续预训练（Continually Pre-trained）的源域模型中间层表示结果映射并作为目标域模型的额外知识。不同于预训练-微调类方法需回溯数据以实现连续迁移学习，CTNet只需要增量数据进行更新，从而实现了高效的连续迁移学习。

方法	无需利用大量的源域样本	不受源域场景目标影响	只需要增量数据即可实现连续迁移学习
联合训练	否	否	是
预训练-微调	是	是	否
本文提出的CTNet	是	是	是

表1：CTNet和现有的跨域推荐模型的对比

▐ 问题定义

本文探讨的是连续迁移学习这一新问题：

给定随时间持续变化的源域和目标域，连续迁移学习（Continual Transfer Learning）希望能够利用历史或者当前获得的源域和目标域知识提升在未来目标域上的预测准确率。

我们将连续迁移学习这一问题应用在淘宝的跨域推荐任务上。该任务具有如下特点：

不同推荐场景规模相差很大，可以利用较大的源域训练的模型的知识提升目标域的推荐效果。
不同场景的用户和商品共享同一个大底池。但不同场景由于精选商品池、核心用户、图文等展示效果不同存在较为明显的领域差异。
所有推荐场景的模型都是基于最新数据持续增量训练的。

连续迁移学习跨域推荐排序模型在淘宝推荐系统的应用

图1：模型部署示意图

上图展示了我们的方法部署上线的情景。在连续迁移学习跨域推荐排序模型在淘宝推荐系统的应用时刻之前源域模型和目标域模型都是只利用各自场景的监督数据单独连续增量训练的。从时刻开始，我们在目标域上部署了跨域推荐模型CTNet，该模型将在不能遗忘历史上获取的知识的情况下，继续在目标域数据上持续增量训练，同时连续不断地从最新的源域模型中迁移知识。

▐ 连续迁移网络模型（CTNet）

连续迁移学习跨域推荐排序模型在淘宝推荐系统的应用

图2：连续迁移网络CTNet

如图2所示，我们提出的连续迁移网络（Continual Transfer Network， CTNet）模型在原有的目标域的精排模型中嵌入了源域模型的全部特征及其网络参数，形成一个双塔的结构，其中CTNet的左塔为源塔（Source Tower），右塔为目标塔（Target Tower）。不同于常见的只利用源域模型最终打分分数或只利用一些浅层表示（如Embedding）的方法，我们通过一个轻量化的Adapter网络将源域模型MLP的所有中间隐藏层（特别是源域MLP深层蕴含的user和item的高阶特征交互信息）的表示结果连续迁移学习跨域推荐排序模型在淘宝推荐系统的应用映射到目标推荐域，并将结果加入到Target Tower的对应层中（下面公式表示了的情况）。

CTNet效果提升的关键就是利用了MLP中深层表征信息的迁移。借鉴Gated Linear Units(GLU)的思想，Adapter网络采用了门控的线性层，可以有效实现对源域特征的自适应特征选择，模型里有用的知识会做迁移，而与场景特点不符的的信息可被过滤掉。由于源域模型持续不断的使用最新的源域监督数据进行连续预训练，在我们的训练过程中，Source Tower也将持续不断的加载最新更新的源域模型参数并在反向传播过程中保持固定，保证了连续迁移学习的高效进行。因此，CTNet模型非常适用于连续学习范式，使得目标域模型持续的学习到源域模型提供的最新知识以适应最新的数据分布变化。同时由于模型仅在目标域数据上进行训练，保证了模型不受源域训练目标的影响，且完全不需要源域数据训练，避免了大量的存储和计算开销。此外，这样的网络结构采用了加法的设计方法，使得迁移过程中无需改变原始模型MLP层的维数，Target Tower完全由原有的目标域线上模型初始化，避免MLP层重新随机初始化，可以在最大程度上保证原有模型的效果不受损害，仅需较少增量数据就可得到很好的效果，实现了模型的热启动。

连续迁移学习跨域推荐排序模型在淘宝推荐系统的应用

我们定义源域模型为连续迁移学习跨域推荐排序模型在淘宝推荐系统的应用，原有的单域推荐的目标域模型为，新部署的目标域跨域推荐模型为，为跨域推荐模型部署上线时间，该模型连续增量更新至时刻。Adapter、Source Tower和Target Tower的参数分别为连续迁移学习跨域推荐排序模型在淘宝推荐系统的应用、和。CTNet训练的流程如下所示：

连续迁移学习跨域推荐排序模型在淘宝推荐系统的应用

图3：CTNet的训练

实验

▐ 离线效果

连续迁移学习跨域推荐排序模型在淘宝推荐系统的应用

表2：离线实验结果

如上表所示，我们在有好货业务的两个子场景（表中Domain B和C）的对应的生产数据集上进行了一系列离线实验，其中源域（表中Domain A）为首页信息流推荐场景。可以看出，直接利用信息流推荐（首页猜你喜欢）排序模型打分结果（表中的Source Domain Model）在有好货业务上效果并不好，对比线上全量模型分别有绝对值GAUC-5.88%和GAUC-9.06%的显著差距，证明了场景之间存在的差异。

我们还对比了一系列传统的跨域推荐的Baseline方法，包括常见的预训练-微调类方法和联合训练的方法（如MLP++、PLE、MiNet、DDTCDR、DASL等），提出的CTNet在两个数据集上均明显优于已有方法。对比线上全量主模型，CTNet在两个数据集上分别取得GAUC+1.0%和+3.6%的显著提升。我们进一步通过实验分析了连续迁移（Continual Transfer）相比单次迁移的优势。在CTNet的框架下，单次迁移带来的效果提升会随着模型的增量更新有所衰减，而连续迁移学习可以保证模型效果的稳定提升。

连续迁移学习跨域推荐排序模型在淘宝推荐系统的应用

图4: 连续迁移学习相比单次迁移的优势

下表展示了传统的预训练-微调的效果，我们使用完整的源域模型在目标域数据上训练。由于领域之间的差异，需要非常多的样本（如120天样本）才可以将模型的效果调到一个和线上全量Base模型相当的水平。为了实现连续迁移学习，我们需要每隔一段时间都利用最新的源域模型重新调整，每一次调整带来的巨大代价也使得该方法不适用于连续迁移学习。此外，该方法并没有在效果上超越无迁移的Base模型，主要原因是使用海量的目标域样本训练也使得模型遗忘掉了原有的源域的知识，最终训练得到的模型效果也近似于一个只在目标域数据训练的效果。在预训练-微调的范式下，只加载一些Embedding参数的效果反而比复用所有参数更好（如表2所示）。

连续迁移学习跨域推荐排序模型在淘宝推荐系统的应用

表3: 使用预训练的源域模型在目标域上训练的效果

▐ 线上效果

CTNet最早在2021年底完成，于2022年2月在有好货推荐业务全量上线。在两个推荐场景上相比上一代全量模型分别取得显著业务指标提升：B场景：CTR+2.5%，加购+6.7%，成交笔数 +3.4%，GMV+7.7%C场景：CTR+12.3%，停留时长+8.8%，加购+10.9%，成交笔数+30.9%，GMV+31.9%

CTNet采用了并行的网络结构，为了节省计算资源我们共享了部分Attention层的参数和结果，使得Source Tower和Target Tower相同部分的Attention层只需计算一次。和Base模型相比，CTNet的线上响应时间（RT）基本持平。

总结和展望

本文探讨了如何在工业界的连续学习的框架下实现跨域推荐模型，提出了连续迁移学习这一新的跨域推荐范式，利用连续预训练的源域模型的中间层表征结果作为目标域模型的额外知识，设计了一个轻量级的Adapter模块实现跨域知识的迁移，并在有好货推荐排序上取得了显著业务效果。这一方法虽针对有好货的业务特点实现，但也是较为通用的建模方式，相关的建模方式和思想可以应用于诸多其他类似业务场景的优化。由于现有的CTNet的连续预训练的源域模型仅利用信息流推荐场景，未来我们考虑将连续预训练的源域模型升级为包括推荐、搜索、私域等更多场景在内的全域学习预训练模型。

团队介绍

我们是大淘宝技术-内容算法-有好货算法团队。有好货是淘宝基于口碑推荐的，旨在帮助消费者发现好物的导购场景。团队负责有好货商品推荐和短视频内容推荐业务的全链路算法优化，以提高优势商品挖掘能力和频道导购能力。目前主要的技术方向为连续迁移学习跨域推荐、无偏学习，推荐系统全链路建模、序列建模等。在创造业务价值的同时，我们还在SIGIR等国际会议上发表数篇论文，主要成果有PDN，UMI，CDAN等。

以上是连续迁移学习跨域推荐排序模型在淘宝推荐系统的应用的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

AI Hentai Generator

免费生成ai无尽的。

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7328

Java教程

1625

CakePHP 教程

1350

Laravel 教程

1262

PHP教程

1209

显示更多

Related knowledge

全球最强开源 MoE 模型来了，中文能力比肩 GPT-4，价格仅为 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想象一下，一个人工智能模型，不仅拥有超越传统计算的能力，还能以更低的成本实现更高效的性能。这不是科幻，DeepSeek-V2[1]，全球最强开源MoE模型来了。DeepSeek-V2是一个强大的专家混合（MoE）语言模型，具有训练经济、推理高效的特点。它由236B个参数组成，其中21B个参数用于激活每个标记。与DeepSeek67B相比，DeepSeek-V2性能更强，同时节省了42.5%的训练成本，减少了93.3%的KV缓存，最大生成吞吐量提高到5.76倍。DeepSeek是一家探索通用人工智

替代MLP的KAN，被开源项目扩展到卷积了 Jun 01, 2024 pm 10:03 PM

本月初，来自MIT等机构的研究者提出了一种非常有潜力的MLP替代方法——KAN。KAN在准确性和可解释性方面表现优于MLP。而且它能以非常少的参数量胜过以更大参数量运行的MLP。比如，作者表示，他们用KAN以更小的网络和更高的自动化程度重现了DeepMind的结果。具体来说，DeepMind的MLP有大约300,000个参数，而KAN只有约200个参数。KAN与MLP一样具有强大的数学基础，MLP基于通用逼近定理，而KAN基于Kolmogorov-Arnold表示定理。如下图所示，KAN在边上具

你好，电动Atlas！波士顿动力机器人复活，180度诡异动作吓坏马斯克 Apr 18, 2024 pm 07:58 PM

波士顿动力Atlas，正式进入电动机器人时代！昨天，液压Atlas刚刚「含泪」退出历史舞台，今天波士顿动力就宣布：电动Atlas上岗。看来，在商用人形机器人领域，波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后，短短十几小时内，就已经有一百多万观看。旧人离去，新角色登场，这是历史的必然。毫无疑问，今年是人形机器人的爆发年。网友锐评：机器人的进步，让今年看起来像人类的开幕式动作、自由度远超人类，但这真不是恐怖片？视频一开始，Atlas平静地躺在地上，看起来应该是仰面朝天。接下来，让人惊掉下巴

使用C++实现机器学习算法：常见挑战及解决方案 Jun 03, 2024 pm 01:25 PM

C++中机器学习算法面临的常见挑战包括内存管理、多线程、性能优化和可维护性。解决方案包括使用智能指针、现代线程库、SIMD指令和第三方库，并遵循代码风格指南和使用自动化工具。实践案例展示了如何利用Eigen库实现线性回归算法，有效地管理内存和使用高性能矩阵操作。

FisheyeDetNet：首个基于鱼眼相机的目标检测算法 Apr 26, 2024 am 11:37 AM

目标检测在自动驾驶系统当中是一个比较成熟的问题，其中行人检测是最早得以部署算法之一。在多数论文当中已经进行了非常全面的研究。然而，利用鱼眼相机进行环视的距离感知相对来说研究较少。由于径向畸变大，标准的边界框表示在鱼眼相机当中很难实施。为了缓解上述描述，我们探索了扩展边界框、椭圆、通用多边形设计为极坐标/角度表示，并定义一个实例分割mIOU度量来分析这些表示。所提出的具有多边形形状的模型fisheyeDetNet优于其他模型，并同时在用于自动驾驶的Valeo鱼眼相机数据集上实现了49.5%的mAP

特斯拉机器人进厂打工，马斯克：手的自由度今年将达到22个！ May 06, 2024 pm 04:13 PM

特斯拉机器人Optimus最新视频出炉，已经可以在厂子里打工了。正常速度下，它分拣电池（特斯拉的4680电池）是这样的：官方还放出了20倍速下的样子——在小小的“工位”上，拣啊拣啊拣：这次放出的视频亮点之一在于Optimus在厂子里完成这项工作，是完全自主的，全程没有人为的干预。并且在Optimus的视角之下，它还可以把放歪了的电池重新捡起来放置，主打一个自动纠错：对于Optimus的手，英伟达科学家JimFan给出了高度的评价：Optimus的手是全球五指机器人里最灵巧的之一。它的手不仅有触觉

Yolov10：详解、部署、应用一站式齐全！ Jun 07, 2024 pm 12:05 PM

一、前言在过去的几年里，YOLOs由于其在计算成本和检测性能之间的有效平衡，已成为实时目标检测领域的主导范式。研究人员探索了YOLO的架构设计、优化目标、数据扩充策略等，取得了显着进展。同时，依赖非极大值抑制（NMS）进行后处理阻碍了YOLO的端到端部署，并对推理延迟产生不利影响。在YOLOs中，各种组件的设计缺乏全面彻底的检查，导致显着的计算冗余，限制了模型的能力。它提供了次优的效率，以及相对大的性能改进潜力。在这项工作中，目标是从后处理和模型架构两个方面进一步提高YOLO的性能效率边界。为此

单卡跑Llama 70B快过双卡，微软硬生生把FP6搞到了A100里 | 开源 Apr 29, 2024 pm 04:55 PM

FP8和更低的浮点数量化精度，不再是H100的“专利”了！老黄想让大家用INT8/INT4，微软DeepSpeed团队在没有英伟达官方支持的条件下，硬生生在A100上跑起FP6。测试结果表明，新方法TC-FPx在A100上的FP6量化，速度接近甚至偶尔超过INT4，而且拥有比后者更高的精度。在此基础之上，还有端到端的大模型支持，目前已经开源并集成到了DeepSpeed等深度学习推理框架中。这一成果对大模型的加速效果也是立竿见影——在这种框架下用单卡跑Llama，吞吐量比双卡还要高2.65倍。一名

See all articles

连续迁移学习跨域推荐排序模型在淘宝推荐系统的应用

背景

方法

▐ 现有工作及其不足

▐ 问题定义

▐ 连续迁移网络模型（CTNet）

实验

▐ 离线效果

▐ 线上效果

总结和展望

团队介绍

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题