如何在因果推論中更好地利用數據?
導讀:#這次分享題目為《如何在因果推論中更好地利用資料? 》,主要介紹團隊近期在因果上已發表論文的相關工作。本報告從兩個方面來介紹我們如何利用更多的數據來做好因果推斷,一個是利用歷史對照數據來明確緩解混淆偏差,另一個是多源數據融合下的因果推斷。
全文目錄:
- #因果推論背景
- 糾偏因果樹GBCT
- 因果資料融合
- 在螞蟻的業務應用
一、因果推斷背景
##常見的機器學習預測問題一般設定在同樣的系統裡面,如通常會假設獨立同分佈,例如預測吸菸的人中得肺癌的機率、圖片分類等預測問題。而因果的問題則關心的是數據背後的機制,常見的問題如“吸煙是否導致肺癌”,類似的問題則為因果的問題。
在因果效應估計問題裡有兩類很重要的數據:一類是觀測數據,另一類則為隨機對照實驗產生的實驗數據。
- 觀測資料是我們實際生活或產品累積下來的資料。例如抽煙的數據,有的人喜歡抽煙,觀察數據則是抽煙者的相關數據,最終抽煙者中的一部分人得癌症。機器學習預測問題就是估計條件機率P(得肺癌|吸菸),也就是在給定吸菸的條件下,觀察吸菸者得肺癌的機率。在上述的觀測資料中,抽煙的分配其實並不是隨機的:每個人抽煙的偏好不同,同時也會受環境的影響。
- 回答因果問題最好的方式是進行隨機對照實驗。實驗數據是透過隨機對照的實驗得到的。在隨機對照實驗中,treatment 的分配是隨機的。假設需要透過做實驗的方式得到「吸菸是否會導致肺癌」的結論,首先需要找到足夠多的人,強制其中一半人抽煙,同時強制另一半人不抽煙,並觀察兩組人得肺癌的機率。雖然隨機對照試驗在部分場景下受制於道德、政策等因素而不可實現,在部分領域中隨機對照實驗仍可進行,例如在搜推廣中的 A/B test 等。
因果估計問題E(Y|do(X)) 問題和傳統的預測或分類問題E(Y|X) 之間的主要區別在於:給定的條件中出現了Judy Pearl 提出的干預表示符號do。透過幹預,強制將 X 變數設定為某個值。本次報告分享中的因果效應估計主要指的是從觀測資料中估計因果效應。
在因果推論中如何更好地利用資料?本次報告將以兩個團隊近期已發表論文為例子去介紹這樣一個主題。 #
- 第一個工作是如何更好地利用歷史對照資料。例如在某個時間點舉行了一個行銷大促的活動,在這個時間點之前的時間稱為“幹預前”,在這個時間點之後的時間稱為“幹預後”。我們希望在介入前就知道採取介入將帶來多少實際的效果,進而輔助我們做下一步決策。在這次行銷活動開始之前,我們擁有使用者的歷史表現數據,第一個工作主要是介紹如何利用好「幹預前」的數據,輔助數據糾偏工作以更好地評估幹預的效果。
- 第二個工作主要是介紹如何更好地利用多來源異質資料。機器學習中也常涉及此類問題,常見的問題如 domain adaptation、transfer learning 等。在今天的報告中,將從因果的視角去考慮多源異質資料的利用問題,即假設在有多個資料來源的情況下,如何更好地估計因果效應。
二、糾偏因果樹GBCT
#1、傳統的因果樹
樹演算法主要由兩個模組組成:
- 分裂準則:根據分割準則將一個節點分裂成兩個子節點
- 參數估計:分裂完成後,例如最終停止分裂,根據參數估計的方法在葉子節點上預測新樣本或群體的因果效應
一些傳統因果樹演算法是根據因果效應的異質性進行分裂的,基本思想是希望分裂之後的左子節點和右子節點的因果效應差異較大,透過分裂捕捉到不同資料分佈的因果效應異質性。
傳統因果樹的分裂準則,例如:
- #uplift tree 的分裂準則為最大化左右子節點的因果效應差異,差異的測量使用歐氏距離、KL 散度等距離測量;
- #causal tree 分裂準則可直觀地解釋為最大化因果效應的平方。可透過數學證明,此分裂準則等價於最大化葉節點因果效應變異數。
常見的參數估計做法是直接在分裂後的葉子節點上將實驗組的平均outcome 減去對照組的平均outcome,以此作為因果效應的估計值。如果是隨機對照實驗,則 treatment 的分配機制是隨機的,由此計算得到的平均差值即為因果效應。隨機分配機制確保實驗組和對照組的資料分佈是相同的,即稱為同質性。
因果樹中分裂得到子節點,可以保證分裂得到的左子節點和右子節點的分佈是同質的嗎?
2、糾偏因果樹GBCT
#傳統的causal tree、uplift tree 並不能保證分裂後的左子節點和右子節點的分佈是同質的。因此上一節提到的傳統估計值是有偏的。
我們的工作著重於去估計實驗組(treatment組)上的平均因果效應 CATT。 CATT 的定義為:
進一步,傳統的因果效果估計值拆分成兩部分:
選擇偏差(selection bias/confounding bias)可定義為:
其直覺意義為在實驗組中treatment=0 時的估計值,減去在對照組中treatment=0 時的估計值。在傳統的因果樹中上述的 bias 是沒有被刻畫的,選擇偏差可能會影響我們的估計,從而導致最終的估計是有偏的。
我們的想法是利用產品或平台上累積的歷史對照數據,從而明確地減少選擇偏差。具體操作是基於兩個假設:
- 假設1:可觀測到介入之前實驗組和對照組在 treatment=0 的狀態下的 outcome 的表現。以金融信貸產品中信用卡產品提額操作為例,在提額之前,我們可觀察到用戶平時的使用表現,即實驗組和對照組在不提額狀態下(treatment=0)的outcome 的表現是可獲得的;
- 假設2:假設outcome 的y 在幹預前後滿足一定的連續性。直觀理解為一個使用者或群體行為的變化在幹預前後不會太劇烈。
具體的做法:
① 分割準則
- 分裂準則的第一部分與傳統因果樹類似,透過擬合歷史資料的outcome# 從而降低經驗損失。例如在不提額狀態下透過函數擬合使用者行為。
- 分裂準則的第二部分是使用混淆熵。混淆熵相對於均方誤差而言,可以捕捉高階資訊。公式:
#的直覺意義是:在實驗組中,使用對照組的模型來估計;在對照組中,使用實驗組的模型進行估計;使這兩部分的估計盡量接近,從而使得實驗組和對照組的分佈盡量接近一致。混淆熵的使用是我們這項工作的主要貢獻之一。
#- 最終損失為以上兩部分的加權和。注意到損失中主要使用的是乾預前 的數據(經驗損失部分仍會使用乾預後的數據來擬合),即用乾預前的數據進行輔助糾偏。
② 參數估計
- 參數估計使用的是乾預後(t≥τ )的數據進行因果效應的估計。主要使用乾預前的資料糾偏學習得到一個樹結構,在葉子節點中使用乾預後的資料進行因果效應的估計,由於使用乾預前的資料進行了明確地糾偏,因此在使用乾預後的資料計算得到的估計會更加準確。
- (PPT 的右邊)由右圖所示,黃色的線代表實驗組,藍色的組別代表對照組。業務中的一些策略可能會導致實驗組和對照組的分配不是隨機的,兩者的分佈有明顯的差異。經過GBCT 糾偏後,葉子節點上乾預前的實驗組和對照組的數據分佈基本上是對齊的,從某種意義上達到了類似模擬隨機對照實驗的效果,因此使用乾預後的數據估計因果效應(黃線下的面積減去藍線下的面積)會更準確。
傳統的樹模型的整合包括 bagging、boost 等方法。 uplift forest 或 causal forest 使用的整合方法為 bagging 法,uplift forest 的集合變成直接求和,而causal forest 的整合需要解一個損失函數。
由於在 GBCT 中設計了明確糾偏的模組,從而 GBCT 支援使用 boosting方法進行整合。基本想法與boosting 類似:在第一棵樹糾偏完之後,第二棵樹進行糾偏,第三棵樹進行糾偏……
實驗方面做了兩部分實驗:
① 模擬實驗。 在含有 ground truth 的模擬實驗下,檢驗 GBCT 的方法是否能夠達到預期的效果。模擬實驗的資料產生分為兩部分(表格中的第一列Φ表示選擇偏倚,Φ值越大,對應的選擇偏差就越強;表格中的數值為MAE,MAE 值越小表示方法越好) :
- 第一部分是混淆變數已觀測。在混淆變數都已觀測的情況下,檢驗 GBCT 的方法相對於傳統方法是否更穩健。由表中數據可得出結論,選擇偏差越大,傳統方法(meta learner、causal forest 等)表現越差。
- 第二部分是存在未觀測的混淆變數。此時許多傳統方法的效果會顯著變差。對 GBCT 而言,在存在未觀測混淆變數時表現較穩定,同時穩定地比其他方法表現得更好。
- 表格中最後兩列(GBCT-ND, GBCT-B)是消融實驗,也就是去掉一些模組的GBCT 的弱化版本,進而說明我們提出的每個模組都是有用的。
② 真實信用卡提額資料。進行隨機對照的實驗,同時根據隨機對照實驗建構了有偏數據。在不同的設定下,GBCT 方法比傳統的方法穩定地好,尤其是在有偏的數據上,顯著比傳統的方法表現得好。
#三、因果資料融合
第二個工作是因果資料融合,也就是在擁有多個資料來源的情況下,如何更好地估計因果效應。
主要的符號:是多個資料來源,Y 是outcome,A 是treatment,X 是關注的協變量,Z 是除X 了外每個資料來源(域)的其他協變量,S 是域的indicator用於表示屬於哪個域,μ 是潛在結果的期望值。將outcome拆解成如下表達式:
#target function δ 用於估計每個領域上的因果效應,另外nuisance functions 包括主效應、傾向性分數、域傾向性分數、效果的變異數等。
一些傳統的方法,例如meta learner 等都是假設資料是同源的,即分佈是一致的。一些傳統的資料融合方法可以處理在跨域之間人群的異質性,但是無法明確地捕捉到干預結果跨域的異質性以及因果作用跨域的異質性。我們的工作主要是處理更複雜的跨域間的異質性,包括幹預結果跨域之間的異質性以及因果作用跨域之間的異質性。
WMDL 演算法的框架圖如上圖所示。主要的模組為:
- propensity scores
- outcome models
- #causal information-aware weighting module
#三個模組綜合起來就得到了最終的估計。 WMDL 演算法的三個亮點為:
- 如何刻畫不同程度的跨域之間的異質性
- 如何設計weighting 的模組以用上更多的資訊
- 如何得到一個doubly robust 的估計
#在本次工作中不是透過估計實驗組的outcome 和對照組的outcome,然後作差得到因果效應的估計,而是直接估計因果效應,即Direct Learning。 Direct Learning 的好處是可以避免實驗組和控制組中較高頻的噪音訊號。
左邊部分假設了多個領域之間因果效應是一樣的,但其outcome 可能存在異質性;右邊部分假設每個域之間的因果效應不一樣,即在不同的域之間,即使它的協變量一樣,其因果效應也不同。
#公式是根據拆解式推導得到的,outcome Y 減去 main effect 除以treatment,估計的是 I(X),得到的最優解即為 δ(X)。 中的分子是後面將要提到的causal information-aware weighting module,是我們本次工作的一個主要貢獻點;分母則類似於doubly robust 方法中的傾向性得分,只不過本次工作中同時考慮了域的資訊。如果不同域之間的因果效應不一樣,會同時考慮域的 indicator 資訊。
本工作三方面的優勢:
#① 透過不同的設計,不僅能處理幹預結果的異質性,同時可以處理因果作用之間的異質性;
② 具有doubly robustness 性質。在論文中給出了證明,只要域的傾向性評分模型或主效應模型兩者之一的估計是無偏的,最終得到的估計就是無偏的(實際情況略複雜一點,細節見論文);
③ 本次工作主要設計了半參模式框架。其中模型的每一個模組都可以用任何機器學習的模型,甚至可以將整個模型設計進神經網路中,實現端到端的學習。
Weighting 的模組是從統計中的 efficiency bound theory 推導出來的。主要包含兩方面資訊:
① #是域之間分佈差異平衡轉換的模組;
是因果相關的資訊量模組。可透過左邊三幅圖來輔助理解:如果源域(source domain)和目標域(target domain)之間分佈的差異較大,則優先給與目標域(target domain)較接近的樣本以較大的權重;
② 透過分母上的傾向性評分函數的設計,給實驗組和對照組中存在重疊(overlap)的這部分樣本以較大的權重;
③ 透過V 刻畫資料中的雜訊。由於雜訊在分母上,雜訊小的樣本將得到較大的權重。
透過巧妙地將上述三部分結合在一起,可以將不同域之間的分佈差異以及不同因果資訊的表現映射到統一的域中。
不管在同質的因果效應或異質的因果效應下,WMDL(Weighted Multi-domain Direct Learning )方法都有較好的效果。右圖則是對 weighting 模組進行了消融實驗,實驗顯示了 weighting 模組的有效性。綜上所述,WMDL 方法穩定地比其他方法效果好,估計的變異數比較小。
四、在螞蟻的業務應用
在金融信貸風控場景中,幹預的手段如提額、降價等,希望得到預期的效果如餘額或風險的變化量。在一些實際的場景中,GBCT 的糾偏工作會利用提額前一段時間內的歷史表現(實驗組和對照組在不提額下的狀態可獲得),透過歷史的資訊進行明確糾偏,使得乾預後的估計會更加準確。 GBCT 分裂到一個子節點,使得介入前行為對齊,則介入後的因果效應就比較容易估計了。 (糾偏後得到的)圖中紅色為提額組,藍色為不提額組,中間的灰色區域即為估計的因果效應。 GBCT 幫助我們更好地做出智慧決策,並控制信貸產品的餘額及風險。
五、問答環節
#Q1:請問 GBCT 糾偏與雙重差分方法(DID)有何異同?
A1:GBCT 糾偏主要想法是利用歷史對照資訊明確地降低選擇偏倚,GBCT 的方法和DID 雙重差分的方法有相似也有不同之處:
- 相似的地方是二者都利用了歷史資訊;
- 不同的地方在於兩者對於歷史資訊的處理方式。 DID 假設歷史資料中的實驗組和對照組之間存在固定常值的間隔(gap),在預測時減去間隔(gap)。由於選擇偏差,實驗組和對照組的分配不是隨機的,GBCT 透過糾偏的方式,將歷史的實驗組和對照組對齊。
Q2:GBCT 在未觀測混淆變數上會表現得更好,有什麼比較直覺的解釋?
A2:如果所有的混淆變數已觀測的話,滿足可忽略性(Ignorability)假設,某種程度上,雖然沒有明確地降低選擇偏倚,實驗組和對照組也有可能透過傳統的方法來對齊,實驗顯示GBCT 的表現要略勝一籌,透過顯式糾偏使得結果更穩定一些。
假設存在一些未觀測到的混淆變量,此類場景在實際中是非常常見的,歷史的對照數據中也存在未觀測到的混淆變量,例如在提額前,家庭狀況、收入的變化等可能觀測不到,但是用戶的金融行為已經透過歷史數據體現出來了。我們希望透過歷史的表現訊息,以混淆熵等方式明確降低選擇偏倚,使得在樹分裂時,將混淆變數之間的異質性刻畫到分裂的子節點中。在子節點中,使得未觀測的混淆變數有更大的機率是比較相近的,因此估計的因果效應相對更準確。
Q3:有將 GBCT 和 Double Machine Learning(DML)做過比較嗎?
A3:做過比較。 Double Machine Learning 是一個半參的方法。我們這篇工作比較著重在 tree-based 方法,所以選用的 base learner 都是一些 tree 或 forest 等相關的方法。表格中的 DML-RF 是 Double Machine Learning 版的 Random Forest。
相較於 DML,GBCT 主要是在考慮如何利用歷史的對照資料。在比較方法中,會把歷史的 outcome 直接當作協變數處理,但這種處理方法顯然沒有把資訊用得很好。
Q4:業務中可能會遇到的比較相似的問題是,離線可能會有選擇偏差。但是線上的偏差可能會和離線的偏差存在一些偏差。此時在離線做效果評估時,可能沒有辦法非常準確地對離線效果進行估計。
A4:這個問題在金融場景是一個非常本質的問題。在搜推廣中可以透過線上學習或 A/B test 部分克服離線與線上之間的差異。在金融場景,受政策影響無法輕易地在線上做實驗;另外表現的觀測週期通常較長,如信用產品觀察到使用者的回饋需要至少 1 個月的觀測時間。因此實際上很難完美地解決這個問題。
#我們一般採取如下方式:在離線評估時使用不同時期(OOT)的測試資料去做驗證,觀察其表現的穩健性。如果測驗表現比較穩定的,那麼相對來說更有理由相信其在線上的表現也是不錯的。
#以上是如何在因果推論中更好地利用數據?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

在機器學習和資料科學領域,模型的可解釋性一直是研究者和實踐者關注的焦點。隨著深度學習和整合方法等複雜模型的廣泛應用,理解模型的決策過程變得尤為重要。可解釋人工智慧(ExplainableAI|XAI)透過提高模型的透明度,幫助建立對機器學習模型的信任和信心。提高模型的透明度可以透過多種複雜模型的廣泛應用等方法來實現,以及用於解釋模型的決策過程。這些方法包括特徵重要性分析、模型預測區間估計、局部可解釋性演算法等。特徵重要性分析可以透過評估模型對輸入特徵的影響程度來解釋模型的決策過程。模型預測區間估計

本文將介紹如何透過學習曲線來有效辨識機器學習模型中的過度擬合和欠擬合。欠擬合和過擬合1、過擬合如果一個模型對資料進行了過度訓練,以至於它從中學習了噪聲,那麼這個模型就被稱為過擬合。過度擬合模型非常完美地學習了每一個例子,所以它會錯誤地分類一個看不見的/新的例子。對於一個過度擬合的模型,我們會得到一個完美/接近完美的訓練集分數和一個糟糕的驗證集/測試分數。略有修改:"過擬合的原因:用一個複雜的模型來解決一個簡單的問題,從資料中提取雜訊。因為小資料集作為訓練集可能無法代表所有資料的正確表示。"2、欠擬合如

1950年代,人工智慧(AI)誕生。當時研究人員發現機器可以執行類似人類的任務,例如思考。後來,在1960年代,美國國防部資助了人工智慧,並建立了實驗室進行進一步開發。研究人員發現人工智慧在許多領域都有用武之地,例如太空探索和極端環境中的生存。太空探索是對宇宙的研究,宇宙涵蓋了地球以外的整個宇宙空間。太空被歸類為極端環境,因為它的條件與地球不同。要在太空中生存,必須考慮許多因素,並採取預防措施。科學家和研究人員認為,探索太空並了解一切事物的現狀有助於理解宇宙的運作方式,並為潛在的環境危機

通俗來說,機器學習模型是一種數學函數,它能夠將輸入資料映射到預測輸出。更具體地說,機器學習模型是一種透過學習訓練數據,來調整模型參數,以最小化預測輸出與真實標籤之間的誤差的數學函數。在機器學習中存在多種模型,例如邏輯迴歸模型、決策樹模型、支援向量機模型等,每種模型都有其適用的資料類型和問題類型。同時,不同模型之間存在著許多共通性,或者說有一條隱藏的模型演化的路徑。將聯結主義的感知機為例,透過增加感知機的隱藏層數量,我們可以將其轉化為深度神經網路。而對感知機加入核函數的話就可以轉換為SVM。這一

C++中機器學習演算法面臨的常見挑戰包括記憶體管理、多執行緒、效能最佳化和可維護性。解決方案包括使用智慧指標、現代線程庫、SIMD指令和第三方庫,並遵循程式碼風格指南和使用自動化工具。實作案例展示如何利用Eigen函式庫實現線性迴歸演算法,有效地管理記憶體和使用高效能矩陣操作。

機器學習是人工智慧的重要分支,它賦予電腦從數據中學習的能力,並能夠在無需明確編程的情況下改進自身能力。機器學習在各個領域都有廣泛的應用,從影像辨識和自然語言處理到推薦系統和詐欺偵測,它正在改變我們的生活方式。機器學習領域存在著多種不同的方法和理論,其中最具影響力的五種方法被稱為「機器學習五大派」。這五大派分別為符號派、聯結派、進化派、貝葉斯派和類推學派。 1.符號學派符號學(Symbolism),又稱符號主義,強調利用符號進行邏輯推理和表達知識。該學派認為學習是一種逆向演繹的過程,透過現有的

MetaFAIR聯合哈佛優化大規模機器學習時所產生的資料偏差,提供了新的研究架構。據所周知,大語言模型的訓練常常需要數月的時間,使用數百甚至上千個GPU。以LLaMA270B模型為例,其訓練總共需要1,720,320個GPU小時。由於這些工作負載的規模和複雜性,導致訓練大模型存在著獨特的系統性挑戰。最近,許多機構在訓練SOTA生成式AI模型時報告了訓練過程中的不穩定情況,它們通常以損失尖峰的形式出現,例如Google的PaLM模型訓練過程中出現了多達20次的損失尖峰。數值偏差是造成這種訓練不準確性的根因,

譯者|李睿審校|重樓人工智慧(AI)和機器學習(ML)模型如今變得越來越複雜,這些模型產生的產出是黑盒子-無法向利害關係人解釋。可解釋性人工智慧(XAI)致力於透過讓利害關係人理解這些模型的工作方式來解決這個問題,確保他們理解這些模型實際上是如何做出決策的,並確保人工智慧系統中的透明度、信任度和問責制來解決這個問題。本文探討了各種可解釋性人工智慧(XAI)技術,以闡明它們的基本原理。可解釋性人工智慧至關重要的幾個原因信任度和透明度:為了讓人工智慧系統被廣泛接受和信任,使用者需要了解決策是如何做出的
