勵志

勵志人生知識庫

wavenet模型

WaveNet是一種序列生成模型,主要用於語音合成和生成原始音頻波形。其特點和優勢如下:

WaveNet模型可以直接學習到採樣值序列的映射,因此在語音合成聲學模型建模和vocoder方面都有套用。

WaveNet使用神經網路架構作為條件機率分布的乘積對音頻波形的聯合機率進行建模。

WaveNet採用擴張因果卷積(Dilated Causal Convolutions),也稱為膨脹卷積或空洞卷積),這種卷積在傳統的因果卷積基礎上增加了擴張因子(dilation rate),通過在卷積核元素之間插入跳過連線,擴大了單個卷積層的感受野,使模型能夠捕獲更長距離的依賴關係,同時仍然保持了因果性質。

WaveNet使用softmax層作為輸出層,對每個時間步的音頻樣本進行分類。

WaveNet可以生成類似真人的語音,並且可以用於語音識別音樂合成等領域。

WaveNet能夠根據一個序列的前t-1個點預測第t個點的結果,即每個語音樣本都依賴於之前時間步的所有樣本。

WaveNet可以抓取不同說話者的特徵,並具有高保真度,能夠在給出說話人ID的條件下在多說話人之間進行切換。

WaveNet已經套用於Google智慧型助理系統,能識別9種不同口音的英語。