勵志

勵志人生知識庫

因果森林原理

因果森林(Causal Forest)是一種用於估計異質因果效應的算法,由WagerAthey於2017年提出。它通過子採樣生成大量不同的因果樹,並取這些樹的平均值來估計處理效應。因果森林可以被看作是一種近鄰匹配算法,但它是用數據驅動的方法來確定樣本之間的相似度。

在因果森林中,對於混淆變數特徵集X,干預變數T,結果變數Y,算法採用無放回抽樣從原始數據集{1,…,N}中隨機抽取樣本量為s(s小於N,默認比例為50%)的子集b。這些樣本被隨機分成樣本量為s/2的兩等份,分別作為樣本T和樣本E。對於樣本T,使用特徵變數X和結果變數Y基於遞歸分區的方式構造因果樹模型。樹的分裂規則是異質性最大化,即進入同一子節點的用戶處理效應儘量相同,而不同節點的用戶處理效應差異大。子節點繼續按照相同的準則進行分割,直到新的節點不再生成為止。同時,需要確定模型的處理效應估計值的準確性,即各個組內的個體的處理效應值和組內平均處理效應值的MSE(Loss)最小化,總體而言,組內效應估計方差最小化,組間異質性最大化。因果樹生成後,利用公式計算每個葉子節點上個體的處理效應。重複上述步驟B次,最終形成有B棵樹的因果森林。此時,第i個個體的處理效應綜合B棵樹的均值進行計算。