快手雙邊市場的複雜實驗設計問題
一、問題背景
#1、雙邊市場實驗介紹
雙邊市場,即平台,包含生產者與消費者雙方參與者,雙方相互促進。例如快手有影片的生產者,影片的消費者,兩種身分可能有一定程度重疊。
雙邊實驗是在生產者和消費者端組合分組的實驗方式。
雙邊實驗有以下優點:
(1)可以同時偵測新策略對兩方面的影響,例如產品DAU 和上傳作品人數變化。雙邊平台往往有跨邊網路效應,讀者越多,作者越活躍,作者越活躍,讀者也會跟著增加。
(2)可以偵測效果溢位和轉移。
(3)幫助我們更好得理解作用的機制,AB實驗本身無法告訴我們原因和結果之間的關係,只能告訴我們所作所為事情會得出什麼樣的影響以及數據變化。但是生產端與消費端之間的作用機制,就需要更複雜的實驗設計和更多的實驗指標才能把這些問題看清楚。
2、雙邊實驗的例子
這裡透過一個直播美顏的例子,幫助大家進一步理解雙邊實驗。
假設在直播場景中加上美顏的效果。從表格中橫著看,兩行的實驗的觀眾組,控制觀眾是否可以看到直播美顏前後的差異。表格中的欄位表示主播有沒有美顏對實際的影響。將以上兩方面結合,當且僅當實驗組主播對照實驗組觀眾時,才給影片開美顏功能。實際另外三組無法看到美顏功能。但是 BC 看不見美顏,和 D 看不到美顏有差別。 AD 的差異是常規的 AB 實驗的常見場景。本場景透過雙邊設計可以觀察到觀眾側是否存在溢出。
針對主播美沒有美顏功能,若不存在觀眾溢出,則BD 應該資料表現一致,但實際上,資料BD 若有差異,如果主播沒有美顏功能,觀眾在其他主播側看到美顏功能,則實際效果就存在了正影響或負影響。同理,主播側的溢出也可以透過此種雙邊實驗,更能理解實驗中的作用機制,和實驗雙方是否有溢出。
二、激勵策略的挑戰
供給側-消費面生態系統內部,業務時長有政策性流量扶持的需求,這就是激勵策略,主要包括以下三種場景:
(1)運營引入優質作者,但不確定作者在平台上的數據表現;
#(2)某些業務需要挖掘特定類型作者,給一些宏觀調控上的流量扶持,予以更強的流量分發力度;
#(3)平台意志場景下,按照某種特定方向發展,認為改變流量分配方式強化某些對應內容供給。
#在上述場景下往往並非網路學習的方式,而是透過人為的角度對平台流量做宏觀的調控。針對關注相對長期的,需要觀察學習效應(促進生產等),時間片輪轉之類的方法不太試用。例如如下場景:給一類定向流量的作者流量的支持,來研究這樣的流量在長期場景下,互動以及生產是否可以長久。
#首先是作者側的擠佔:大多數此類實驗,平台的總曝光數量有限,平台扶持的場景下,實驗組作者曝光增加,不被扶持的控制組曝光量減少。若作者側冷啟動曝光提升幅度比讀者側冷啟動曝光幅度大,就證明有擠佔情形。
根據上圖根據實驗組對照組關係以及進行各組曝光相對基線diff,可以看出,隨著實驗開始對作者boost 最後會通過推薦系統不僅傳遞給使用者群組B 也會傳遞給使用者群組A,且作者B 使用者B,作者B 使用者A 的曝光diff 是基本上趨於一致的。傳統實驗一直致力於對此種策略扭曲的流量情況矯正。
#SUTVA 假設,個體i 在實驗過程中只與自身被指派在實驗組或對照組相關,與實驗體系下其他節點在哪一個分組無關,不論其他節點是合作關係還是競爭關係。 SUTVA 是 AB 實驗得到有效結論最基礎的假設。
實際雙邊網路違反了 SUTVA 假設。
#在短影片場景下,如果把每一種記錄策略看成一種排序演算法。不同的激勵策略代表短影片的不同排序結果。上圖 RC 代表對照組,RT_25% 實驗組流量是 25% 時的演算法排序組合,RT 代表實驗組實驗推全 100% 演算法排序組合。 BCDE 為實驗目標使用者類型,即選定的激勵作者作品。而 D 為當實驗推量 25% 時,正好落在實驗組中。假設透過推薦加權的方式實驗,D 的排序直接排到前面位置。若策略增加至 100%,BCDE 均被加權,這種情況,D 作品卻排序反而下降。這種場景就是實驗組擠佔,以及出現擠佔的原因。
三、可選解決方案
#1、方案1:逐步擴量
實驗組排序gap 會隨著實驗組資料比例擴大而逐漸接近,擠佔的效果隨著控制組流量減少而減少。
【先發優勢】實驗過程中發現,針對流量扶持的場景下,相等扶持力度,先扶持作者會始終保持流量優勢。更早的扶持和加速發掘過程本身邏輯是前後一致的。
分階段擴量的實驗細節:上圖展示了分階段擴量,縱座標為相對 base 組漲粉資料差異。實驗初期,20% 實驗組的情況,只扶持了實驗組1,實驗組一數據指標開始上升;當實驗放量60%,實驗組123 均開始扶持,另外兩組實驗指標也開始上升,但始終沒有超過實驗組1;後面將實驗組改成了124,發現4 也開始提升,但4 仍無法超過實驗組3。
由此可以得到以下結論:逐步擴量是有用的,指標會根據擴量提升,提升會不會隨著流量擴大而無法確認。目前實驗結果可以得出,先獲得流量扶持的實驗組數據表現會比後來獲得流量扶持的實驗組更好。
2、方案2:分割小世界
如上圖所示方法,將實驗組和對照組完全隔離,實驗組讀者只能看到實驗組作品,控制組讀者只能看到控制組作品。由此避免出現作者與讀者之間的擠壓情況。
類似的做法有,將作者和讀者的流量分發當成一個網絡圖,這個網絡圖並不是處處聯通,部分讀者只愛看部分幾類作品,基於這樣的網絡圖可以做實驗組對照組的切分。以上做法與劃分小世界方式思維一致,實踐效果更好,但同時也具有更大的計算成本。
分割小世界主要存在的問題為:
(1)演算法推薦系統需要一定的規模量級才能冷啟動,當切分池子一定小的時候,影響實際個人化分發空間。不同業務不同平台保留推薦彈性效果前提下,對切分結構最細粒度要求各不相同。大多數情況,推薦邊際效應遞減。
(2)明確的流量隔離,對樣本進行的實驗數量和檢驗方式有一定限制。針對並行實驗場景需要不斷得將隔離開的使用者重新打散重新拆分。
從分析方法中矯正而不是實驗設計的方式矯正:
- ##根據實際網路效應做矯正分析;
- 根據實驗結果做一些線性假設以及其他的一些條件假設。
#首先實際的分析矯正方法中假設很難驗證,對於差異較大的實驗,網路效應的溢出擠佔情況各不相同,很難在短時間內總結規律,無法得到通用方法。而實際我們的解決方案希望可以解決一大類問題。
四、建構綜合方案
基於排序融合的方案建構-本質上我們希望可以保證實驗組RT_a% 的排序和實驗組RT_100% 的實際排序可以保持一致結果。
實作方式:首先同時以RT/RC 兩套排序演算法進行排序,記錄對應的作品順序;將作者分為實驗組與對照組,對於實驗組給讀者展示的為兩個演算法的排序融合順序。
#將RC 為目前所有作者沒有扶持的線上排序方案,RT 中將所有知識類作者提權。將RC 於 RT 的排序結果融合,先將實驗組 RT 對應的作者(T1T2)放在 final 分組的對應排序位置上,將對照組的作者依照原先實驗無關的次序繼續保留。保守起見,小流量時期建議除了實驗作品以外,其他作品均依照原先次序填滿。若實驗已經推全,則全量使用 RT 的結果。
如果實驗組和對照組競爭同一個位置怎麼辦?
根據上述實驗設計,如果出現實驗組作品和對照組作品競爭同一個位置,最簡單的方式是隨機選擇。這種情況出現的機率很低。
如果實驗組和對照組都是 a% 的總流量,假設 a=2,
假設一次推 10 個作品,top10 同時出現實驗組和對照組作品的機率計算如上圖,約為 3.3%。如果兩個演算法完全獨立,前 10 相同位置出現衝突的機率會更低。
往往改進具有一定的漸進式的,RC 和 RT 關聯性很高,衝突性更小。同時也可以透過離線測試的方式提前預估衝突的機率。
以上雙邊實驗主要的指標評估可分為以下三類:
- #作者側指標:作品數量,生產作者數,直接從作者側檢定;
- 報告觀看指標:CTR,EVTR,作者作品曝光提升=讀者觀看次數提升進行推算;
- 讀者側指標:讀者側邊實驗驗證。
#方案可能有其他一些問題:
首先任何的方案都會有問題。雙邊市場強的溢出效應很難透過一個解決方案解決所有問題。
目前實驗設計的主要問題包括以下幾個面向:
(1 )首先,保留兩套排序從工程側存在一定成本,若政策激勵會更好推進,演算法的角度不容易一直保持兩套不做融合;
(2)其次,從演算法資料的隔離的角度,部分改進來自於資料本身,模型本身存在較大變化,結果排序演算法邏輯不再成立。
(3)第三,計算假設 a=2%,如果更多的流量檢定小的效果是否可以增加 a 值?隨機選擇比例混排,使得更大流量衝突可能性更小。最後,雙邊問題退換為單邊解決,是否可以透過雙邊可以解決,待後續繼續探究。
#以上是快手雙邊市場的複雜實驗設計問題的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

一、問題背景1、雙邊市場實驗介紹雙邊市場,即平台,包含生產者與消費者兩方參與者,雙方相互促進。例如快手有影片的生產者,影片的消費者,兩種身分可能有一定程度重疊。雙邊實驗是在生產者和消費者端組合分組的實驗方式。雙邊實驗有以下優點:(1)可以同時偵測新策略對兩方面的影響,例如產品DAU和上傳作品人數變化。雙邊平台往往有跨邊網路效應,讀者越多,作者越活躍,作者越活躍,讀者也會跟著增加。 (2)可以檢測效果溢出和轉移。 (3)幫助我們更好得理解作用的機制,AB實驗本身不能告訴我們原因和結果之間的關係,只

把因果鏈展示給LLM,它就能學會公理。 AI已經在幫助數學家和科學家做研究了,例如著名數學家陶哲軒就曾多次分享自己借助GPT等AI工具研究探索的經驗。 AI要在這些領域大戰拳腳,強大可靠的因果推理能力是不可或缺的。本文要介紹的研究發現:在小圖譜的因果傳遞性公理演示上訓練的Transformer模型可以泛化用於大圖譜的傳遞性公理。也就是說,如果讓Transformer學會執行簡單的因果推理,就可能用於更複雜的因果推理。該團隊提出的公理訓練框架是一種基於被動資料來學習因果推理的新範式,只有演示

Vue技術開發中如何進行資料篩選和排序在Vue技術開發中,資料篩選和排序是非常常見且重要的功能。透過資料篩選和排序,我們可以快速查詢和展示我們需要的信息,提高用戶體驗。本文將介紹在Vue中如何進行資料篩選和排序,並提供具體的程式碼範例,幫助讀者更好地理解和運用這些功能。一、資料篩選資料篩選是指依照特定的條件篩選出符合要求的資料。在Vue中,我們可以透過comp

如何使用C++中的基數排序演算法基數排序演算法是一種非比較性的排序演算法,它透過將待排序的元素分割成一組有限的數字位元來完成排序。在C++中,我們可以使用基數排序演算法來對一組整數進行排序。以下我們將詳細討論如何實作基數排序演算法,並附上具體的程式碼範例。演算法思想基數排序演算法的想法是將待排序的元素分割成一組有限的數字位,然後依序對每個位上的元素進行排序。在每個位元上的排序完

整理|核子可樂,褚杏娟接觸過基礎電腦科學課程的朋友們,肯定都曾親自動手設計排序演算法——也就是藉助代碼將無序列表中的各個條目按升序或降序方式重新排列。這是個有趣的挑戰,可行的操作方法也多元。人們曾投入大量時間探索如何更有效率地完成排序任務。作為一項基礎操作,大多數程式語言的標準庫中都內建有排序演算法。世界各地的程式碼庫中使用了許多不同的排序技術和演算法來在線組織大量數據,但至少就與LLVM編譯器配套使用的C++庫而言,排序程式碼已經有十多年沒有任何變化了。近日,GoogleDeepMindAI小組如今開發出一

如何實現C#中的選擇排序演算法選擇排序(SelectionSort)是一種簡單直觀的排序演算法,其基本思想是每次從待排序元素中選擇最小(或最大)的元素,放到已排序的序列末尾。透過重複這個過程,直到所有元素都排序完成。下面我們來詳細了解如何在C#中實作選擇排序演算法,同時附上具體的程式碼範例。建立選擇排序方法首先,我們需要建立一個用於實作選擇排序的方法。此方法接受一

Swoole是一款基於PHP語言的高效能網路通訊框架,它支援多種非同步IO模式和多種高階網路協定的實作。在Swoole的基礎上,我們可以利用其多執行緒功能來實現高效率的演算法運算,例如高速排序演算法。高速排序演算法(QuickSort)是一種常見的排序演算法,透過定位一個基準元素,將元素分成兩個子序列,小於基準元素的放在左側,大於等於基準元素的放在右側,再對左右子序列遞迴

針對不同場景,選擇合適的PHP數組排序演算法至關重要。冒泡排序適用於小規模數組無穩定性要求的情況;快速排序在大多數情況下時間複雜度最低;歸併排序穩定性高,適用於需要穩定結果的場景;選擇排序適用於無穩定性要求的情況;堆排序高效率找出最大或最小值。透過實戰案例比較,快速排序在時間效率上優於其他演算法,但需要考慮穩定性時應選擇歸併排序。
