勵志

勵志人生知識庫

knn公式

KNN(k-Nearest Neighbor)算法是一種基於最近鄰原則的分類方法,其核心思想是「近朱者赤,近墨者黑」。以下是KNN算法的公式:

選擇K個最近鄰:算法首先找到與待分類樣本最近的K個樣本。

多數表決:根據這K個最近鄰樣本的類別,按照多數表決的原則決定待分類樣本的歸屬。

距離度量:KNN算法通常使用閔可夫斯基距離(Minkowski distance)來計算樣本之間的距離。當p=2時,閔可夫斯基距離即為歐式距離(Euclidean distance),而當p=1時,則為曼哈頓距離(Manhattan distance)。

權重處理:除了根據K個最近鄰的樣本個數決定分類結果外,還可以根據距離大小賦予權重,使得離得近的樣本對分類結果的影響更大。

數據歸一化:如果變數的量綱不統一,可能會導致個別變數對距離計算的權重過大,因此需要對參與運算的變數進行歸一化處理,如Min-Max標準化或Z-score標準化。

機率輸出:有時需要對待分類樣本輸出一個機率值,這可以通過計算K個最近鄰樣本中不同類別的數量比例來實現。

以上是KNN算法的基本公式和步驟,希望對你有所幫助。