勵志

勵志人生知識庫

梯度爆炸的原因

梯度爆炸的原因主要包括:

隱藏層的層數過多。在深度神經網路中,當層數增加時,如果激活函式的導數大於1,那麼梯度在反向傳播過程中會不斷累積,導致梯度爆炸。

使用了不合適的激活函式。例如,sigmoid和tanh激活函式的導數最大值小於1,這意味著即使層數不多,梯度也可能因為連續相乘而變得非常小,導致梯度消失。然而,如果初始權重過大,仍然可能導致梯度爆炸。

權重的初始化值過大。這意味著在反向傳播過程中,權重的更新會過大,導致模型權重出現很大的更新,可能使得權重的值變得非常大,甚至出現NaN值。