基於對抗梯度的探索模型及其在點擊預估中的應用-人工智慧-PHP中文網

探索與利用（Exploration-Exploitation，E&E）方法通常用於處理大規模線上推薦系統中的資料循環問題。過去的研究通常認為模型預估不確定度高意味著潛在效益也較高，因此大部分研究文獻聚焦到不確定度的估計。對於採用流式訓練的線上推薦系統而言，探索策略會對訓練樣本的收集產生較大影響，進而影響模型的進一步學習。然而，目前大多數探索策略並不能很好的建模被探索的樣本如何對後續模型學習產生影響。因此，我們設計了一個擬探索（Pseudo-Exploration）模組來模擬樣本被成功探索並展現後對推薦模型後續學習的影響。

擬探索過程透過在模型輸入中加入對抗擾動來實現，我們同時也給出了該過程相應的理論分析以及證明。基於此，我們將此方法命名為基於對抗梯度的探索策略（ A dversarial G radient driven E xploration，以下簡稱 AGE ）。為了提高探索的效率，我們也提出了一個動態門控單元用來過濾低價值樣本，避免將資源浪費在低價值的探索上。為了驗證AGE演算法的有效性，我們不僅在公開學術資料集上進行了大量的實驗，也將AGE模型部署到了阿里媽媽展示廣告平台上並取得了良好的線上收益。這項工作已被KDD 2022 Research Track收錄為Full Paper，歡迎閱讀交流。

論文： Adversarial Gradient Driven Exploration for Deep Click-Through Rate Prediction

下載： https://arxiv.org/abs/2112.11136

2. 背景

在廣告系統中，點擊率（CTR）預估模式通常採用串流方式加以訓練，而串流資料的來源又是由部署在線上的CTR模式產出，這就產生了所謂的資料循環問題。冷啟動與長尾廣告由於沒有充分展現，CTR模型缺乏對這部分廣告的訓練數據，這也導致模型對這部分廣告的估計可能存在較大誤差，會使得這些廣告更加難以展現，進而難以完成冷啟動過程。具體而言，圖一給出了廣告真實點擊率與展現數量之間的關係：在我們系統中，一個新廣告的展現平均需要達到約一萬次，其點擊率才能達到收斂態。這給許多線上系統帶來了一個常見的難題，即如何在保證用戶體驗的前提下，為這些廣告做好冷啟動。

基於對抗梯度的探索模型及其在點擊預估中的應用

圖一：廣告CTR和展現次數之間的關係

#探索和利用（E&E）演算法通常被用來解決上述問題。在推薦或廣告系統中，常見的方法（如Contextual Multi-Armed Bandits，上下文多臂老虎機）一般會將該問題按照如下方式加以建模。在每個步驟中，系統會基於策略P選擇一個操作（即為使用者推薦一個項目_ _）。為了最大化累積獎勵（通常使用總點擊量來衡量），系統需要權衡目前是偏重探索，還是偏重利用。先前的研究通常認為，高不確定性是潛在回報的衡量指標。一方面，策略P需要優先選擇當前效用較大的項目以最大化本輪收益；另一方面，演算法也需要選擇不確定度較大的操作以實現探索。如果用來表示權衡探索和利用的策略，那麼系統對專案最終評分可以用以下公式表示：

不確定性估計已成為許多E&E演算法的核心模組。不確定性可能源自於資料的變異性、測量雜訊和模型不穩定性（例如：參數的隨機性），典型的估計方法包括蒙特卡羅MC-Dropout、貝葉斯神經網路、預測不確定性的高斯過程，以及基於梯度範數（模型權重）的不確定性建模等。在此基礎上，有兩種典型的探索策略：基於UCB的方法通常採用潛在回報的上限作為最終評分[1,2]，而基於湯普森採樣的方法是透過從估計的機率分佈中抽樣來完成[ 3]。

3. 方法介紹

我們認為，上述方法並未考慮一個完整的探索閉環。對於數據驅動的線上系統而言，探索的最終收益來自於從探索過程中獲得的回饋數據，以及回饋數據對於模型的訓練與更新。而模型預估的不確定度本身並不能完全反映整個回饋閉環。為此，我們引入了一個擬探索模組，用於模擬完成探索動作後回饋資料對於模型的影響，並以此來衡量探索的有效性。分析發現，探索的有效性不僅取決於模型的預估不確定度，還取決於「對抗擾動」的大小。所謂對抗擾動，指的是模型的輸入上加入的固定模長的擾動中使得模型輸出變化最大的擾動向量。在論文中，我們也證明了，模型利用被探索的資料進行一次訓練後，模型輸出變化的期望等價於在輸入向量中加入模長為不確定度、擾動向量為對抗梯度的增量向量。我們驗證了以這種方式進行建模，可以閉環地估計出被探索樣本對模型的後續影響，從而估計出被探索樣本的真實價值。

我們將這個方法稱為基於對抗梯度的探索（Adversarial Gradient driven Exploration），簡稱AGE。 AGE模型由擬探索模組（Pseudo-Exploration Module）與動態門控閾值單元（Dynamic Gating Unit）兩部分組成，其整體結構如圖二所示。

基於對抗梯度的探索模型及其在點擊預估中的應用

圖二：AGE結構圖

其中部分的詳細介紹詳見3.1節，部分的詳見3.3節。

3.1 擬探索模組（Pseudo-Exploration Module）

3.1.1 模組簡介

擬探索模組的主要目的是定量模擬模型使用在探索樣本加以訓練後，對此樣本評分的變化，從而估計探索對於模型的閉環影響。經過推導，我們發現可以透過公式(2)來完成上述過程，其中代表了探索後模型對該樣本的評分，我們將其用於最終的排序。

上式表示我們不需要對原有模型參數進行任何操作，只需要在輸入的表徵中加上對抗梯度，預估不確定度以及手工設定的超參數的乘積，即可完成探索後模型預估分的模擬。其中參數與的計算方法，我們在下一節中介紹。本節後續我們將介紹擬探索模組中公式(2)的詳細推導過程。

3.1.2 詳細推導

對於每個資料樣本而言，模型的訓練將會影響兩部分參數：此樣本對應的表徵（包含商品、用戶embedding等）與模型參數。因為模型參數在訓練中的目標是適應所有樣本而不是單條樣本，所以我們可以認為訓練單條樣本主要會對樣本對應的表徵產生影響，而模型參數本身只需要微小的調整。因此，在後續研究中，我們將忽略的調整，而僅關注樣本對應的表徵的變化。假設包含表徵的樣本真實label為，訓練時，我們需要尋找到的更新量，以最小化損失函數。基於此，我們定義：

基於對抗梯度的探索模型及其在點擊預估中的應用

其中代表訓練中使用的損失函數，而在CTR預估任務中一般使用交叉熵損失函數。同時，我們用來約束表徵的最大變化。為了簡化書寫，後續我們將上述公式右側寫為。

依據拉格朗日中值定理，在的二範數接近0的情況下，我們可以將上述損失函數公式(3)推導為：

基於對抗梯度的探索模型及其在點擊預估中的應用

我們觀察公式(4)，易發現該損失函數在與兩個向量有相反的方向時，得到最小值。在式(3)中，我們約束對抗擾動。因此，透過求解公式(3)，我們得到：

基於對抗梯度的探索模型及其在點擊預估中的應用

實務中，我們用來取代公式(5)中的歸一化梯度。透過求導鍊式法則，可以展開為和兩部分。進一步計算，得到：

基於對抗梯度的探索模型及其在點擊預估中的應用

在上式中，我們將重新縮放到以維持等式的成立。儘管意義不同，但它們都是手動調節的超參數，故我們可以直接以完成替換。我們進一步簡化公式(6)為：

基於對抗梯度的探索模型及其在點擊預估中的應用

上式中，歸一化梯度表示模型輸出相對於輸入表徵的導數方向。由於真實的使用者回饋在探索時無法得到，我們將使用預估不確定度來衡量預測分數與真實使用者回饋之間的差異。

公式(7)中，我們找到了在的限制下可以最大化改變模型預測輸出的解析解（推導與公式(3)到公式(5)相同）。進一步，我們也發現上述對輸入表徵添加的過程與對抗擾動（見公式(9)）的形式相同。

基於對抗梯度的探索模型及其在點擊預估中的應用

因此，我們利用對抗梯度來的替代公式(7)中的，並將我們的方法命名為基於對抗性梯度的探索演算法。

公式(9)表明，AGE最有效的探索方式為給表徵輸入加入對抗擾動，以擾動後模型的輸出結果為排序因子：以對抗梯度為輸入表徵的擾動向量方向，以及以預測不確定性度的擾動力度。於是，在得到和後，我們可以用下述公式來計算探索後的模型預測分數，該公式即為前述公式(2)。

3.2 實作細節

在AGE中，我們採用MC-Dropout的方法估計不確定度。具體來說來，MC-Dropout為深度模型中的每個神經元賦予隨機Mask權重，具體做法如下公式(11)所示。此方法的一個好處是，我們可以在不改變模型原始結構的基礎上直接獲得不確定性。在實際操作中，可以透過UCB的想法計算dropout的變異數來表示不確定度，或參考湯普森隨機取樣的方式透過計算取樣與平均值的差異來計算不確定度，也即公式（12）和公式（13 ）。

基於對抗梯度的探索模型及其在點擊預估中的應用

歸一化對抗梯度可以根據公式(8)中的快速梯度法（FGM）來計算。為了更精確地計算出對抗梯度，我們也可以進一步利用近端梯度下降（PGD）方法，多步驟迭代更新梯度，如公式（14）所示。

基於對抗梯度的探索模型及其在點擊預估中的應用

3.3 動態閘控閾值單元（Dynamic Gating Unit）

在實務中，我們發現並非所有廣告都值得探索。在一般的Top-K廣告系統中，能夠為最終用戶展現的廣告數量是相對較少。因此，本身點擊率低的廣告（例如廣告本身品質較低），即使模型對這部分廣告的預估存在很高的不確定性，但考慮廣告系統的業務屬性，其探索價值仍然是很低的。雖然我們可以透過探索獲得了這些廣告的大量數據，使得這些廣告被模型充分訓練而估計的更加準確；但因為這些廣告的本身過低的點擊率會使得即使充分探索後，這些廣告依然無法自行獲取流量，這樣的探索無疑是低效率的。在本文中，我們嘗試了一種簡單的啟發式方法來提高探索的效率——如果模型對該廣告的預估分數高於該廣告在所有人群中的平均點擊率，我們將進行探索；否則，探索將不會發生。

為了計算廣告的平均點擊率，我們引入了動態閘控閾值單元（DGU）模組。 DGU僅使用廣告側特徵作為輸入來預估廣告的平均點擊率。當模型的預估點擊率低於DGU模組預估的廣告平均點擊率時，不予探索，反之則進行正常的探索。流程如下式所示：

基於對抗梯度的探索模型及其在點擊預估中的應用

最終，我們將代入公式(10)中，得到以下AGE探索模型最終完整的計算方式。

4. 實驗評測

4.1 離線實驗

我們比較了三大類基準方法，包括基於隨機取樣的探索方法，基於深度模型的探索方法，以及基於梯度的探索方法，結果如表1所示。觀察可得，基於湯普森採樣（TS）方法所建構的基線模型均優於基於UCB的模型，證明TS是一種更好的衡量模型不確定度的演算法。此外，我們可以觀察到AGE演算法優於所有的基線方法，這也證明了AGE方法的有效性。具體而言，AGE-TS和AGE-UCB的表現均優於最佳基線UR-gradient-TS和UR-gradient-UCB [4]，提升數值分別為5.41%和15.3%。而AGE-TS方法相比於不進行探索的基準方法提高了整整28.0%的點擊量。值得注意的是，基於AGE的UCB和TS演算法AGE-UCB和AGE-TS取得了相似的效果，基於gradient的UCB和TS演算法並非如此，這也證明了AGE可以彌補UCB方法的不穩定性。

基於對抗梯度的探索模型及其在點擊預估中的應用

表1：離線實驗結果

我們也進行了大量的消融實驗來證明了各個模組的有效性。如表2所示，閾值單元、對抗梯度、不確定度單元，三者皆不可或缺。為了進一步確定DGU的效果，我們嘗試了不同的固定閾值參數，最後也發現其效果也不如DGU的動態閾值。

基於對抗梯度的探索模型及其在點擊預估中的應用

表2：消融實驗結果

4.2 線上實驗

我們也將AGE模型部署到阿里媽媽展示廣告系統中，為了準確評估模型的探索價值，我們設計了基於公平桶的評測方法。如圖三所示，我們首先設定桶C和桶D用於收集資料。在桶D中，我們部署AGE等探索演算法，而在桶C中，我們採用不做探索的常規CTR模型。經過一段時間之後，我們將桶C和桶D所獲得的回饋資料分別應用於公平桶A和B上部署模型的訓練。最終，我們將比較公平桶A和B上的模型效果。在線上實驗中，我們使用幾個標準指標進行評估，包括點擊率CTR、被探索廣告的展現數量PV和預測CTR與真實CTR之比PCOC。此外，我們還引入了一個用於衡量廣告主的滿意度的商業指標（AFR）。

基於對抗梯度的探索模型及其在點擊預估中的應用

圖三：公平桶實驗方案

如表3所示，上述指標都得到了有效的提升。其中，AGE明顯優於所有其他方法：CTR和PV分別比基線模型高6.4%和3.0%。同時AGE模型的使用也提升了模型的預測精度，即預估準度PCOC更接近1。更重要的是，AFR指標也有5.5%的提升，這顯示我們的探索方法可以有效提升廣告主的體驗。

基於對抗梯度的探索模型及其在點擊預估中的應用

表3：線上實驗結果

5. 總結

與大多數專注於估計潛在回報的探索&利用方法不同，我們的方法AGE從線上學習的數據驅動的角度重新建構了這個問題。除了可以估計目前模型預測的不確定度外，AGE演算法借助擬探索模組，更進一步考慮探索樣本對模型訓練的後續影響。我們在學術研究資料集和生產鏈路都進行了A/B測試實驗，相關結果都證實了AGE方法的有效性。今後我們將AGE部署於更多的應用程式場景中。

以上是基於對抗梯度的探索模型及其在點擊預估中的應用的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學

1666

CakePHP 教程

1425

Laravel 教程

1327

PHP教程

1273

C# 教程

1252

Related knowledge

全球最強開源 MoE 模型來了，中文能力比肩 GPT-4，價格僅 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想像一下，一個人工智慧模型，不僅擁有超越傳統運算的能力，還能以更低的成本實現更有效率的效能。這不是科幻，DeepSeek-V2[1]，全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合（MoE）語言模型，具有訓練經濟、推理高效的特點。它由236B個參數組成，其中21B個參數用於啟動每個標記。與DeepSeek67B相比，DeepSeek-V2效能更強，同時節省了42.5%的訓練成本，減少了93.3%的KV緩存，最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

Google狂喜：JAX性能超越Pytorch、TensorFlow！或成GPU推理訓練最快選擇 Apr 01, 2024 pm 07:46 PM

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow，7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中，Pytorch依然比Tensorflow更受歡迎。但未來，也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近，Keras團隊為三個後端（TensorFlow、JAX、PyTorch）與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先，他們為生成式和非生成式人工智慧任務選擇了一組主流

AI顛覆數學研究！菲爾茲獎得主、華裔數學家領銜11篇頂刊論文｜陶哲軒轉贊 Apr 09, 2024 am 11:52 AM

AI，的確正在改變數學。最近，一直十分關注這個議題的陶哲軒，轉發了最近一期的《美國數學學會通報》（BulletinoftheAmericanMathematicalSociety）。圍繞著「機器會改變數學嗎？」這個話題，許多數學家發表了自己的觀點，全程火花四射，內容硬核，精彩紛呈。作者陣容強大，包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化，要知道，其中許多文章是在一年前提交的，而在這一

你好，電動Atlas！波士頓動力機器人復活，180度詭異動作嚇到馬斯克 Apr 18, 2024 pm 07:58 PM

波士頓動力Atlas，正式進入電動機器人時代！昨天，液壓Atlas剛「含淚」退出歷史舞台，今天波士頓動力就宣布：電動Atlas上崗。看來，在商用人形機器人領域，波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後，短短十幾小時內，就已經有一百多萬觀看。舊人離去，新角色登場，這是歷史的必然。毫無疑問，今年是人形機器人的爆發年。網友銳評：機器人的進步，讓今年看起來像人類的開幕式動作、自由度遠超人類，但這真不是恐怖片？影片一開始，Atlas平靜地躺在地上，看起來應該是仰面朝天。接下來，讓人驚掉下巴

替代MLP的KAN，被開源專案擴展到卷積了 Jun 01, 2024 pm 10:03 PM

本月初，來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如，作者表示，他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說，DeepMind的MLP有大約300,000個參數，而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎，MLP基於通用逼近定理，而KAN基於Kolmogorov-Arnold表示定理。如下圖所示，KAN在邊上具

特斯拉機器人進廠打工，馬斯克：手的自由度今年將達到22個！ May 06, 2024 pm 04:13 PM

特斯拉機器人Optimus最新影片出爐，已經可以在工廠裡打工了。正常速度下，它分揀電池（特斯拉的4680電池）是這樣的：官方還放出了20倍速下的樣子——在小小的「工位」上，揀啊揀啊揀：這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作，是完全自主的，全程沒有人為的干預。而且在Optimus的視角之下，它還可以把放歪了的電池重新撿起來放置，主打一個自動糾錯：對於Optimus的手，英偉達科學家JimFan給出了高度的評價：Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

如何在iPhone中撤銷從主畫面中刪除 Apr 17, 2024 pm 07:37 PM

從主畫面中刪除了重要內容並試圖將其取回？您可以透過多種方式將應用程式圖示放回螢幕。我們已經討論了您可以遵循的所有方法，並將應用程式圖示放回主畫面如何在iPhone中撤消從主畫面中刪除正如我們之前提到的，有幾種方法可以在iPhone上恢復此變更。方法1–替換應用程式庫中的應用程式圖示您可以直接從應用程式庫將應用程式圖示放置在主畫面上。步驟1–橫向滑動以尋找應用程式庫中的所有應用程式。步驟2–找到您先前刪除的應用程式圖示。步驟3–只需將應用程式圖示從主庫拖曳到主畫面上的正確位置即可。這是將應用程式圖

FisheyeDetNet：首個以魚眼相機為基礎的目標偵測演算法 Apr 26, 2024 am 11:37 AM

目標偵測在自動駕駛系統當中是一個比較成熟的問題，其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而，利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大，標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述，我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示，並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型，並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

See all articles

基於對抗梯度的探索模型及其在點擊預估中的應用

1. 摘要

2. 背景

3. 方法介紹

3.1 擬探索模組（Pseudo-Exploration Module）

3.2 實作細節

3.3 動態閘控閾值單元（Dynamic Gating Unit）

4. 實驗評測

4.1 離線實驗

4.2 線上實驗

5. 總結

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題