勵志

勵志人生知識庫

什麼是信息增益

信息增益是一個在資訊理論機率論中使用的概念,用於衡量兩個機率分布之間的差異。

信息增益用於特徵選擇,特別是在決策樹算法中,幫助確定哪些特徵對數據的分類最有貢獻。信息增益描述了當使用一個機率分布Q進行編碼時,再使用另一個機率分布P進行編碼時差異的大小,其中P代表樣本或觀察值的分布,而Q是對P的近似或理論描述。

具體來說,信息增益是集合的經驗熵與特徵在條件下的經驗條件熵之差,經驗熵度量了數據集合的不確定性,而經驗條件熵則是在給定某個特徵值的情況下,數據集合的不確定性。因此,特徵帶來的信息增益越大,表明該特徵對分類任務的影響越大。