fbank特徵 _勵志人生網

FBank特徵是一種在語音處理中常用的特徵，它模擬了人耳對聲音的感知方式，特別是在語音識別任務中。獲取FBank特徵的一般步驟包括：

預加重：此步驟通過高通濾波器補償語音信號中的高頻分量損失，以增強信號的高頻部分。這基於空氣傳播聲波時對不同頻率分量的不同衰減效應。

分幀：由於語音信號在短時間內可以視為相對穩定，因此將信號分成短時幀以適應傅立葉變換的平穩性要求。通常每幀長度為20-50ms，並且幀與幀之間有一定的重疊（例如1/2或2/3），以增加幀間的連續性。

加窗：在時域對每幀信號乘以窗函式，以減少頻譜洩露並平滑地過渡到零，從而減小截斷效應。常用的窗函式包括漢寧窗和漢明窗。

短時傅立葉變換（STFT）：對每幀信號執行傅立葉變換，以得到頻譜信息。

Mel濾波：由於人耳對低頻聲音更敏感，Mel濾波器組將線性頻譜映射到基於聽覺感知的Mel非線性頻譜中。這一步涉及到對傅立葉變換後的頻率譜執行Mel濾波運算，計算每階濾波器的能量和總能量值。

FBank特徵的相鄰濾波器組有重疊，這導致特徵間相關性較高，保留了更多的信息，使得神經網路可以更好地利用這些相關性。FBank特徵的提高性能主要得益於其模擬了人耳對聲音的非線性回響，這使得它在語音識別任務中特別有效。