勵志

勵志人生知識庫

correlation算法

Correlation算法是一種用於機器學習特徵篩選的方法,它通過計算特徵與特徵之間的相關係數來判斷兩兩特徵之間的相關程度。相關係數的取值區間在[-1, 1]之間,具體取值關係如下:

當corr(x1, x2)小於0時,表示負相關,即x1與x2是互補特徵,其中一個變數的下降會導致另一個變數上升。

當corr(x1, x2)等於0時,表示無相關。

當corr(x1, x2)大於0時,表示正相關,即x1與x2是替代特徵,其中一個變數的上升會導致另一個變數也上升。

Correlation算法的原理實現包括:

取相關係數值的絕對值。

把corr值大於90%~95%的兩兩特徵中的某一個特徵剔除。

如果兩個特徵是完全線性相關的,只需要保留其中一個即可,因為第二個特徵包含的信息完全被第一個特徵所包含。

如果兩個特徵同時都保留,模型的性能很大情況會出現下降的情況。

這種方法可以通過剔除不相關信息特徵來提高機器學習模型的性能。