勵志

勵志人生知識庫

fbank特徵

FBank特徵是一種在語音處理中常用的特徵,它模擬了人耳對聲音的感知方式,特別是在語音識別任務中。獲取FBank特徵的一般步驟包括:

預加重:此步驟通過高通濾波器補償語音信號中的高頻分量損失,以增強信號的高頻部分。這基於空氣傳播聲波時對不同頻率分量的不同衰減效應。

分幀:由於語音信號在短時間內可以視為相對穩定,因此將信號分成短時幀以適應傅立葉變換的平穩性要求。通常每幀長度為20-50ms,並且幀與幀之間有一定的重疊(例如1/2或2/3),以增加幀間的連續性。

加窗:在時域對每幀信號乘以窗函式,以減少頻譜洩露並平滑地過渡到零,從而減小截斷效應。常用的窗函式包括漢寧窗和漢明窗。

短時傅立葉變換(STFT):對每幀信號執行傅立葉變換,以得到頻譜信息。

Mel濾波:由於人耳對低頻聲音更敏感,Mel濾波器組將線性頻譜映射到基於聽覺感知的Mel非線性頻譜中。這一步涉及到對傅立葉變換後的頻率譜執行Mel濾波運算,計算每階濾波器的能量和總能量值。

FBank特徵的相鄰濾波器組有重疊,這導致特徵間相關性較高,保留了更多的信息,使得神經網路可以更好地利用這些相關性。FBank特徵的提高性能主要得益於其模擬了人耳對聲音的非線性回響,這使得它在語音識別任務中特別有效。