#這是UG 的全景圖。
UG 透過管道,如 Paid Ads、 ASO、SEO 等管道,獲客引流到 APP。接下來,會做一些新手的運作和引導,來促進用戶,使其進入成熟期。後續使用者可能會慢慢失活,進入衰退期,甚至進入流失期。在這段期間會做一些流失的預警,促活的召回,後面還有一些對流失用戶的召回。
可以歸納為上圖的公式, 即 DAU 等於 DNU 乘以 LT。 UG 場景下的所有工作都可以基於這個公式來拆解。
#AB實驗的目的是將流量完全隨機的分配,針對實驗組和不同的對照組採取不同的策略。最終結合統計方法和實驗假設做出科學決策,這構成了整個實驗的框架。目前市面上的實驗分流類型大致分為兩種:實驗平台分流與客戶端本地分流
實驗平台分流是有前提的,需要設備完成初始化以後能取得到穩定的ID,基於這個ID 向實驗平台請求實驗平台完成分流相關的邏輯,把分流ID 回傳給給端上,然後端上基於收到的ID 做對應的策略。它的優點是有一個實驗平台,能夠確保分流的均勻性和穩定性。它的缺點是設備必須完成初始化以後才能進行實驗分流。
另一種分流方式是客戶端本地分流。這種方式相對來說比較小眾,主要適用於一些UG場景、廣告開屏場景以及效能初始化場景。在這種方式下,所有的分流邏輯都在客戶端初始化時完成。它的優點很明顯,即無時延,開機即可進行分流。從邏輯上來說,它的分流均勻性也能夠得到保證。然而,在實際的業務場景中,它的分流均勻性常常存在問題。接下來將介紹其原因
UG 場景實際面臨的第一個問題是盡可能早的分流。
這裡舉個例子,例如這裡的流量承接頁面,產品經理覺得 UI 可以再優化一下,進而提升核心指標。在這樣的場景下,我們希望實驗能儘早進行分流。
在頁面1的分流過程中,裝置會進行初始化並取得ID。有18.62%的用戶無法產生ID。如果使用傳統的實驗平台分流方式,將會有18.62%的用戶無法被分組,從而導致固有的選擇偏差問題
另外,新用戶的流量是非常寶貴的,有18. 62% 的新用戶不能被用於實驗,對於實驗的時長和流量利用效率也是有很大的損失。
未來解決實驗盡可能早的分流的問題,我們就會用客戶端本地分流實驗。其優點是在設備初始化的時候,就完成了分流。其原理為,首先是在端上面初始化的時候,它本身就可以產生隨機數,對隨機數進行哈希以後進行同樣的分組,進而產生了實驗組和對照組。從原理上看,應該能夠保證分流是均勻的,但透過上圖中的一組數據會發現,有超過 21% 的用戶是重複進到不同的組的。
有一個場景是,一些很受歡迎的產品,像是王者榮耀或抖音,使用者很容易上癮。新用戶在實驗週期裡面會有多次的卸載重裝。按照剛剛講的本地分流的邏輯,隨機數的產生和分流以後會讓使用者進入不同的群組,這樣就會出現分流的 ID 和統計 ID 不能一對一匹配。造成了分流不均勻的問題。
在新使用者情境下,我們也面臨實驗評估標準的問題。
我們重新整理了新用戶流量承接這一幕的時間圖。在應用程式啟動時,我們選擇了進行分流。假設我們能夠在分流的時機做到均勻,並且同時產生對應的策略效果。接下來,產生指標統計ID的時機比策略效果的時機要晚,只有在這時才能觀測到資料。資料觀測的時機遠遠落後於策略效果的時機,這將導致倖存者偏差
合規性,不管是海外業務還是國內業務,安全合規首先是生命線,一定要滿足安全合規,否則一旦被下架影響會特別大。
及時性,對於新使用者場景,一定是要及時,開機即可取得分流。
唯一性,在單次安裝週期內,分流的 ID 是穩定的,同時接指標口徑 ID 能形成一一對應的關係。透過下圖中的資料可以看到,分流 ID 和指標計算口徑 ID 一對一的匹配比例達到了 99.79%,指標計算 ID 和分流 ID 的一對一比例也達到了 99. 59%。基本上可以驗證,依照標準選擇的分流 ID 和指標 ID 是能夠做到一對應的。
2、分流能力科學性驗證
選擇好分流ID 以後,分流能力往往是透過兩種方式,第一種是透過實驗平台,第二種是透過端上完成。
######有了分流的 ID 以後,把分流 ID 提供給實驗平台,在實驗平台完成分流的能力。作為分流平台,最基本的是需要驗證它的隨機性。首先就是均勻性。在同一層實驗裡面,把流量均勻地分到了很多分桶,每個分桶進組的數量應該是均勻的。這裡可以簡化一下,假如一層只有一個實驗,分成 a、 b 兩組,進組的對照組和實驗組的使用者數應該是近似相等的,進而驗證分流能力的均勻性。其次,對於多層實驗,多層實驗之間應該是互相正交,不受影響的,同理這裡也需要去驗證不同層實驗之間的正交性。可以用統計上的 category test 去驗證均勻性和正交性。 ############介紹完分流選擇的 ID 與分流的能力,最後要從指標結果層次去驗證新提出的分流結果,是否符合 AB 實驗的要求。 #########3、分流結果科學性驗證#########透過利用內部平台,我們進行了多次AA模擬############比較對照組和實驗組在對應的指標上是否滿足實驗的要求。接下來來看這一組數據。 #######
抽樣了一些t 檢定的指標組,可以理解為對於做的這麼多次試驗,放type one error rate 應該是在很小的機率,假設type one error rate 預定是在0. 055% 左右,它的置信區間其實應該在1000 次左右,應該是在0. 0365- 0. 0635 之間。可以看到第一列抽樣出來的一些指標,都在這個執行區間之內,所以從 type one error rate 視角來看現有的這個實驗體係是 OK 的。
同時考慮到檢定是對於 t 統計量的檢驗,對應的 t 統計量在大流量的分佈下面,應該是近似地服從常態分佈的。也可以對 t 檢定的統計量做常態分佈的檢定。這裡用了常態分佈的檢驗,可以看到檢驗出來的結果也是遠大於 0.05 的,即原假設成立,也就是 t 統計量是近似服從常態分佈的。
對於每次檢定t 統計量檢定出來的結果的pvalue,在這麼多次實驗裡面來看,也是近似地服從均勻分佈的,同時也可以對pvalue 做均勻分佈的檢驗,pvalue_uniform_test,也可以看到類似的結果,它也是遠大於0.05 的。所以原假設 pvalue 近似服從均勻分佈也是 OK 的。
以上從分流ID 和指標計算口徑的一一對應關係,從分流的能力和分流的結果指標結果上面都去驗證了新提出來的這種實驗分流體系的科學性。
以下將結合UG場景下的實際應用案例,詳細講解如何進行實驗評估,以解決前面提到的第三個問題
這裡有典型的UG 流量承接場景,在NUJ 新用戶引導或新用戶任務的時候會做很多的優化,從而提升流量利用率。這時候的評估標準往往都會是 retention rate,這是業界現有的常規理解。
假設從新使用者下載到安裝到首啟動的這個流程, PM 覺得這樣的流程對於使用者使用,特別是從未體驗過產品使用的這一部分用戶來說門檻太高了,是不是應該先讓用戶熟悉產品,體驗到產品的嘻哈moment 以後,再引導登入。
進一步,產品經理提出了另一個假設,即對於從未體驗過產品的用戶,在新用戶登入或新用戶NUJ場景中降低阻力。對於已經體驗過產品的用戶和換機用戶,則仍然採用線上流程
基於指標ID 進行分流的方法首先獲取指標的ID,然後進行分流。這種分流方法通常是均勻的,從實驗結果和保留率來看,沒有太大的差異。從這樣的結果來看,很難做出全面的決策。這種實驗實際上浪費了一部分流量,並且有選擇偏差的問題。因此,我們會進行本地分流實驗,下圖展示了本地分流實驗的結果
進組的新設備數上面會有顯著性的差異,而且是信賴的。同時在 retention rate 上面有提升,但在其它核心指標上其實是有負向的,而且這個負向很難被理解,因為它跟留存其實是強相關的。所以基於這樣的數據,也很難解釋或歸因,也很難做出推全的決策。
可以觀察重複進組的使用者狀況,會發現超過20%的使用者被重複分到不同的群組。這破壞了AB實驗的分流隨機性,導致很難做出科學比較的決策
#最後,看一下用提出的新的分流的實驗的結果。
開機即可分流,分流能力是由內部平台來保證的,它能夠極大程度地保證分流的均勻性和穩定性。從實驗的數據來看,幾乎是接近的,在做開方檢驗的時候也能夠看到它是完全滿足需求的。同時看到有效的新設備數是有極大的增加的,增加了1%,同時在 retention rate 上面也有所提升。同時從對照組或單看實驗組,能夠看到基於分流 ID 到最終產生的新設備的流量轉換率,實驗組比對照組提升了 1% 。之所以會出現這樣的結果,實驗組其實是放大了用戶在 NUJ 和 NUT 的這個入水口,有更多的用戶更容易進來體驗到產品,進而留下來。
將實驗數據分成登入和非登入兩部分,可以發現對於實驗組的使用者來說,更多的使用者選擇了非登入模式來體驗產品,並且留存率也有所提升,這個結果也符合預期
#可以看到by daily 的指標,進組的用戶數,其實是有長期寫,by daily 來看是穩定增加的,同時留存指標也有提升。實驗組相比對照組在有效設備數和留存上都是有提升的。
對於新用戶流量承接的場景,評估指標更常從留存或短期的LT維度進行評估。在這裡,優化實際上只是在LT層級的一維空間上進行的
而在新的實驗體系裡面,把一維優化變成了二維優化, DNU 神尚LT 整體得到了提升,這樣策略空間從以前的一維變成了二維,同時在有些場景下是能接受一部分LT 的損失的。
最後,對新使用者情境下實驗能力建構和實驗評估標準進行一下總結。
以上是如何建構使用者成長場景下的AB實驗體系?的詳細內容。更多資訊請關注PHP中文網其他相關文章!