tf idf算法 _勵志人生網

TF-IDF（Term Frequency–Inverse Document Frequency，詞頻-逆向檔案頻率）是一種在信息檢索和文本挖掘中常用的加權技術，主要用於評估特定詞彙在一個文檔集或語料庫中的重要程度。它由兩部分組成：詞頻（Term Frequency，簡稱TF）和逆向檔案頻率（Inverse Document Frequency，簡稱IDF）。

詞頻（TF）：指的是某個詞在某篇文章中出現的次數。通常，一個詞在文檔中出現的次數越多，它對該文檔的重要性就越大。不過，這種方法需要標準化，以避免文檔長度對詞頻計算的影響。一種常見的標準化方法是使用詞頻除以文檔的總詞數。

逆向檔案頻率（IDF）：反映了詞彙在語料庫中的罕見程度。一個詞彙如果在語料庫中的文檔數量較少，那麼它的IDF值就較高，表明這個詞彙具有較好的類別區分能力。IDF的計算公式通常涉及取對數，以避免分母為零的情況。

TF-IDF的計算：TF-IDF的值是詞頻(TF)和逆向檔案頻率(IDF)的乘積。這意味著，一個詞如果在特定文檔中頻繁出現，並且在整個語料庫中罕見，那麼它的TF-IDF得分就會較高，表明這個詞對於區分該文檔具有較高的重要性。

綜上所述，TF-IDF算法通過結合詞頻和逆向檔案頻率兩個指標，有效地評估了詞彙在特定文檔中的重要性，是信息檢索和文本挖掘領域的重要工具之一。