fbank特徵提取 _勵志人生網

FBank特徵提取是一種在語音識別和音頻處理中常用的技術，其目的是將時域信號轉換為頻域特徵，以便於後續的處理和分析。以下是FBank特徵提取的主要步驟：

分幀：首先，將連續的時域信號分割成短時幀，這是因為語音信號的特性隨時間快速變化，分幀可以捕捉這種短時變化。

傅立葉變換：對每一幀時域信號進行傅立葉變換，將其從時域轉換到頻域。在數字音頻處理中，通常使用的是離散傅立葉變換（DFT），而為了降低計算複雜度，實際套用中多採用快速傅立葉變換（FFT）。

計算能量譜：傅立葉變換後得到頻域信號，需要計算每個頻帶範圍的能量大小，這可以通過兩種方式計算：一種是計算幅度譜的平方根，另一種是計算實部和虛部的平方和。

Mel濾波：接著，通過Mel濾波器組對能量譜進行加權，Mel濾波器的設計模仿了人類聽覺系統對頻率的非線性感知特性。三角濾波視窗可以覆蓋從0到Nyquist頻率的範圍，通常設定頻率上限和下限，以禁止掉不需要或有噪聲的頻率範圍。

取對數和統計特徵：最後，對Mel濾波後的輸出取對數，這有助於壓縮數據並減少特徵之間的動態範圍。此外，還可能計算統計特徵，如每幀的均值和方差，以進一步增強特徵的魯棒性。

FBank特徵的提取過程涉及多個步驟，每一步都旨在從原始音頻信號中提取出對語音識別任務有用的信息。這個過程在語音識別系統中非常關鍵，因為它為後續的聲學模型提供了輸入特徵。