勵志

勵志人生知識庫

jaccard相似度

Jaccard相似度,也被稱為Jaccard相似係數,是一種用於比較有限樣本集之間相似性和差異性的度量標準。它通常用於集合或包(允許元素重複的多重集)之間的相似度比較。

Jaccard相似係數的定義是兩個集合交集的大小除以這兩個集合併集的大小,其值域為,其中1表示兩個集合完全相同,0表示兩個集合沒有交集。對於集合( A )和( B ),Jaccard相似係數( J(A,B) )可以表示為( |A \cap B| / |A \cup B| ),其中( |A \cap B| )是( A )和( B )的交集元素數量,( |A \cup B| )是( A )和( B )的併集元素數量。

例如,如果集合( A = {1, 2, 3} )和( B = {2, 3, 4} ),那麼( A \cap B = {2, 3} )且( A \cup B = {1, 2, 3, 4} ),所以Jaccard相似係數為( |A \cap B| / |A \cup B| = 2 / 4 = 0.5 )。

Jaccard相似係數在數據聚類文本相似度比較、查重與去重等領域有廣泛的套用。