sgdm算法 _勵志人生網

SGDM算法，全稱SGD with Momentum，是一種最佳化算法，用於訓練機器學習模型，特別是在深度學習中。以下是SGDM算法的原理和特點：

SGDM原理：

SGDM在SGD（隨機梯度下降）的基礎上加入了動量機制。

在每一輪疊代中，SGDM計算當前位置的梯度值，並根據梯度值更新參數。

除了當前梯度，SGDM還考慮了之前的梯度信息，這種動量機制有助於參數更新保持一定的連續性和方向性。

動量變數（V）在第一次疊代時初始化為0，並在後續疊代中根據梯度和上一次的動量值更新。

SGDM特點：

動量：SGDM通過動量變數累積之前的梯度信息，使得參數更新不僅僅依賴於當前梯度，還依賴於之前的梯度累積。

衰減權重：動量變數中的梯度信息不是同等重要，而是隨著時間的推移逐漸衰減，這意味著更早的梯度對當前更新的影響較小。

優勢：SGDM相比SGD能夠更好地穿越「溝壑」和「鞍點」，因為它能夠保持更新方向的一致性，從而加速收斂過程。

學習率：SGDM沒有自適應地調整學習率，因此學習率的選擇對模型的訓練效果有重要影響。

SGDM與SGD的比較：

SGD在每次更新時只考慮當前梯度，而SGDM在更新時不僅考慮當前梯度，還考慮了之前的梯度累積，這有助於模型在訓練過程中更加穩定和高效。

歷史：

SGD首次提出是在1987年。

SGDM則是在1986年由Polyak提出。

綜上所述，SGDM算法通過引入動量機制，使得參數更新更加平滑和穩定，尤其在處理具有溝壑和鞍點的最佳化問題時表現優異。然而，它需要仔細選擇學習率，並且沒有像其他算法如Adagrad或RMSProp那樣自適應地調整學習率。