n gram模型 _勵志人生網

N-gram模型是一種基於統計的語言模型，廣泛套用於自然語言處理領域。它的核心思想是假設文本中第N個詞的出現僅與前N-1個詞相關，而與其他詞無關。這種假設被稱為N-1階馬爾可夫假設。N-gram模型基於這個假設，認為整個句子的機率是各個詞出現機率的乘積。這些機率可以通過在語料庫中統計連續N個詞同時出現的次數來得到。

N-gram模型通常用於評估語句的合理性，例如在語音識別中，可以將連續的拼音或筆劃轉換成漢字串。在N-gram模型中，當N等於1時，稱為unigram模型；當N等於2時，稱為bigram模型或一階馬爾可夫鏈；當N等於3時，稱為trigram模型或二階馬爾可夫鏈。雖然也有four-gram和five-gram等模型，但實際套用中N大於5的情況較少見。常用的N-gram模型是bi-gram和tri-gram。

在技術層面上，N-gram模型通過在文本中滑動一個大小為N的視窗，形成長度為N的位元組片段序列，即grams。對這些grams的出現頻度進行統計，並形成關鍵grams列表，這個列表中的每種gram就是一個特徵向量維度。這個模型可以用於評估語句是否合理，通過計算語句中每個詞的條件機率，然後將其乘積作為整個句子的機率。

總結來說，N-gram模型是一種基於馬爾可夫假設的統計語言模型，它通過統計連續詞元（如詞、位元組等）的出現頻率來預測下一個詞元的機率，廣泛套用於語音識別、文本生成和機器翻譯等領域。