LightGBM - 提升演算法



在我們檢視 LightGBM 中各種提升演算法之前,讓我們先解釋一下什麼是提升演算法。提升是一種有效的機器學習方法,可以提高模型的準確性。它透過組合多個弱模型(單獨表現不佳的基本模型)來建立一個改進的模型,從而做出更好的預測。

LightGBM 是一個流行的提升框架。它包含各種建立強大預測模型的方法。

LightGBM 提升演算法

LightGBM 支援各種提升技術。每種技術都有其自身建立模型和進行預測的方法。以下是 LightGBM 中使用的主要提升演算法列表:

  • 梯度提升決策樹 (GBDT)

  • 隨機森林 (RF)

  • DART(Dropout 和多加性迴歸樹)

  • 基於梯度的單側取樣 (GOSS)

讓我們深入瞭解每種演算法:

梯度提升決策樹 (GBDT)

GBDT 是 LightGBM 中預設的也是最常用的演算法。以下是它的工作原理:

工作原理?

GBDT 分階段構建模型,每個階段都會尋找上一級錯誤的修正。它使用決策樹進行預測。決策樹類似於流程圖,它可以幫助您根據特定條件做出決策。

GBDT 非常強大且準確。它廣泛用於各種任務,如分類和迴歸。

例如 - 在 GBDT 模型中,第一棵樹可以預測一個人是否會購買產品。第二棵樹將從第一棵樹的問題中學習並嘗試解決這些問題,迴圈將繼續。

GBDT 的優勢

以下是 GBDT 演算法的優勢:

  • 高精度。

  • 可以處理數值資料和分類資料。

  • 適用於大型資料集。

隨機森林 (RF)

隨機森林是另一種可以與 LightGBM 一起使用的提升方法。它與 GBDT 有些不同。

工作原理?

隨機森林構建許多決策樹,每棵樹都基於不同的隨機資料樣本。然後它組合所有樹木以獲得最終預測。目標是最小化過擬合,過擬合是指模型在訓練資料上表現良好但在新的未標記資料上表現不佳的情況。

隨機森林可用於建立更穩定且不易出現新資料錯誤的模型。

想想由許多樹組成的森林,每棵樹代表一條獨特的決策路徑。最終選擇取決於所有樹木的多數投票。

隨機森林的優勢

以下是隨機森林演算法的優勢:

  • 處理具有高維數(許多特徵)的大型資料集。

  • 比單個決策樹不太容易過擬合。

  • 在分類和迴歸挑戰中表現良好。

DART(Dropout 遇到多加性迴歸樹)

DART 是 GBDT 的改進版本,具有獨特的變化。讓我們看看它是如何工作的:

工作原理?

DART 類似於 GBDT,但增加了“dropout”的概念。Dropout 是在訓練期間從模型的樹中隨機移除。這減少了模型對單個樹的依賴性,使其更加穩健並更能抵抗過擬合。

如果您的 GBDT 模型過擬合,請考慮升級到 DART。它向模型中添加了正則化,從而提高了其在新資料上的效能。

假設您正在玩一個必須回答問題的遊戲,其中一些問題會被隨機消除。這使您可以更加關注剩餘的問題,從而獲得更好的整體效能。

DART 的優勢

以下是 DART 演算法的優勢:

  • 透過使用 dropout 方法減少過擬合。

  • 在提高泛化能力的同時保持高精度。

GOSS(基於梯度的單側取樣)

GOSS 是一種為速度和效率而建立的提升演算法。GOSS 顯示最重要的資料點以加快訓練速度。它透過僅選擇具有最高錯誤的資料點和一些具有較低錯誤的資料點來實現這一點。這減少了需要處理的資料量,從而允許訓練速度更快,同時保持高精度。

GOSS 非常適合快速訓練模型,尤其是在大型資料集上。

假設您正在準備考試,並且選擇只關注最難的問題。這節省了時間,同時完成了最具挑戰性的部分,並確保您的表現。

GOSS 的優勢

以下是 GOSS 演算法的優勢:

  • 更快的訓練速度。

  • 透過關注重要的資料點來保持精度。

選擇合適的提升演算法

選擇合適的提升演算法取決於您的具體需求。

  • 對於高精度,從 GBDT 開始。它是大多數任務的理想預設解決方案。

  • 如果您有大型資料集並且需要快速訓練,請嘗試 GOSS。

  • DART 可以幫助您的模型防止過擬合。

  • 隨機森林是一個可靠且簡單的模型,具有良好的泛化能力。

廣告
© . All rights reserved.