因果森林原理 _勵志人生網

因果森林（Causal Forest）是一種用於估計異質因果效應的算法，由Wager和Athey於2017年提出。它通過子採樣生成大量不同的因果樹，並取這些樹的平均值來估計處理效應。因果森林可以被看作是一種近鄰匹配算法，但它是用數據驅動的方法來確定樣本之間的相似度。

在因果森林中，對於混淆變數特徵集X，干預變數T，結果變數Y，算法採用無放回抽樣從原始數據集{1，…，N}中隨機抽取樣本量為s（s小於N，默認比例為50%）的子集b。這些樣本被隨機分成樣本量為s/2的兩等份，分別作為樣本T和樣本E。對於樣本T，使用特徵變數X和結果變數Y基於遞歸分區的方式構造因果樹模型。樹的分裂規則是異質性最大化，即進入同一子節點的用戶處理效應儘量相同，而不同節點的用戶處理效應差異大。子節點繼續按照相同的準則進行分割，直到新的節點不再生成為止。同時，需要確定模型的處理效應估計值的準確性，即各個組內的個體的處理效應值和組內平均處理效應值的MSE(Loss)最小化，總體而言，組內效應估計方差最小化，組間異質性最大化。因果樹生成後，利用公式計算每個葉子節點上個體的處理效應。重複上述步驟B次，最終形成有B棵樹的因果森林。此時，第i個個體的處理效應綜合B棵樹的均值進行計算。