勵志

勵志人生知識庫

什麼是k means

聚類算法

K-Means是一種廣泛使用的聚類算法,屬於無監督式學習。

K-Means算法的主要目標是找到一箇數據集中K個(K是用戶指定的)非重疊的子集,使得同一個子集中的數據點具有較高的相似度,而不同子集之間的數據點相似度較低。K-Means算法通過計算數據點之間的距離來確定數據點之間的相似性,並以此將數據點分配到不同的簇中。每個簇由該簇中所有點的質心(即這些點的中心)表示。

K-Means算法的核心步驟包括:

首先隨機選擇K個數據點作爲初始的簇中心。

接着,將每個數據點分配給與其最近的簇中心距離最近的那一箇簇。

然後,更新每個簇的中心爲該簇中所有點的質心。

重複以上步驟,直到簇中心不再變化或達到預設的迭代次數。

K-Means算法的優點包括簡單易懂、適用於大規模數據、可擴展性強,以及較好的聚類效果。然而,它也有一些缺點,如對初始值敏感、只能處理數值型數據、對異常值敏感等。