勵志

勵志人生知識庫

smote原理

SMOTE(Synthetic Minority Over-sampling Technique)是一種用於解決數據不平衡問題的算法。其核心原理是通過合成新的少數類樣本來增加數據集中的少數類樣本數量,從而使得數據集在各個類別之間的樣本數量更加均衡。具體步驟如下:

選擇最近鄰:對於一個少數類樣本,首先在少數類樣本中選擇K個最近鄰樣本,K是一個預先設定的超參數,用於控制合成新樣本的數量。

隨機生成新樣本:對於每一個少數類樣本,從其K個最近鄰中隨機選擇一個樣本,並計算兩個樣本之間的差值(在特徵空間中的位置差異)。

合成新樣本:對於每一個差值,乘以一個隨機數(通常取之間的隨機數),然後將結果加到原始樣本上,得到一個合成的新樣本。

重複步驟:重複步驟2和步驟3,直到生成預定數量的新樣本。

通過這種方式,SMOTE可以增加少數類樣本的數量,從而使得訓練數據中各個類別之間的樣本數量更加均衡。這樣,訓練模型時,模型會更好地學習到少數類別的特徵,提高對少數類別的預測準確率。