lightgbm原理 _勵志人生網

LightGBM（Light Gradient Boosting Machine）是一種基於梯度提升決策樹（GBDT）的機器學習框架，它旨在提高訓練速度、降低記憶體消耗，並且提高模型的準確率。LightGBM的主要原理和特點包括：

直方圖最佳化算法：

LightGBM使用直方圖算法來最佳化訓練過程。它將連續的特徵值離散化為k個整數，並構建一個寬度為k的直方圖。通過遍歷數據，根據離散化後的值作為索引在直方圖中累積統計量。這樣，尋找最優分割點的過程轉變為遍歷直方圖，極大地降低了時間複雜度。

帶深度限制的Leaf-wise葉子生長策略：

與傳統的基於深度優先搜尋（DFS）的樹生長策略不同，LightGBM採用Leaf-wise策略，即每次疊代只分裂具有最大增益的葉子節點。這種策略可以同時分裂同一層的葉子節點，便於多執行緒最佳化，有助於控制模型複雜度，減少過擬合。

記憶體最佳化：

LightGBM通過使用直方圖算法和互斥特徵捆綁（EFB）算法來減少記憶體消耗。直方圖算法通過將特徵值轉變為bin值，不需要記錄特徵到樣本的索引，從而降低了空間複雜度。EFB算法通過減少特徵數量來進一步降低記憶體消耗。

並行化和分散式處理：

LightGBM支持高效的並行訓練，並且可以處理大規模數據。它通過最佳化後的特徵並行、數據並行方法加速計算，當數據量非常大時還可以採用投票並行的策略。這些特性使得LightGBM能夠快速處理海量數據，尤其適用於工業級套用場景。

綜上所述，LightGBM通過結合直方圖最佳化算法、Leaf-wise葉子生長策略、記憶體最佳化技術以及並行化和分散式處理能力，實現了在保持模型性能的同時，顯著提高訓練速度和降低記憶體消耗的目標。