勵志

勵志人生知識庫

信息增益率怎么算

信息增益率的計算公式爲:

信息增益率 = 信息增益 / 條件的信息熵

信息增益(Gain)的計算公式爲:

信息增益 = 熵(特徵前的樣本集合) - 條件熵(特徵後的樣本集合)

其中,熵是樣本集合的不確定性度量,條件熵是給定特徵值後樣本集合的不確定性度量。

信息增益率是信息增益除以特徵對應的固有值(intrinsic value),這個值要求隨着分成的類別數越大而越小。這樣可以避免信息增益的缺點,即對可取類別數目較少的特徵有所偏好。

例如,對於一箇有17個編號的屬性,其固有值IV爲4.088。信息增益率爲:

信息增益率 = 信息增益(Gain) / 固有值(IV)

在實際應用中,可以通過計算數據集中每個特徵的信息增益率,然後選擇信息增益率較高的特徵作爲特徵選擇的標準。