資料科學中的損失函式是什麼
介紹
損失函式,通常也稱為代價函式或誤差函式,是資料科學中用於評估機器學習模型的預測與訓練資料中的實際值或目標匹配程度的指標。它量化了實際值和預測值之間的差異,並提供一個單一的標量數值來體現模型的有效性。
多重共線性問題
n 是資料集中資料點的數量。y 代表目標變數的真實值。ŷ 代表迴歸模型生成的預測值。
損失函式的選擇取決於具體的任務和所使用的機器學習演算法型別。常用的損失函式包括:
均方誤差 (MSE)
計算迴歸問題中常用的方法,即真實值和預測值之間平方差的平均值。
在迴歸問題中,均方誤差 (MSE) 損失函式經常被使用。它計算訓練資料集中真實值與迴歸模型生成的預測值之間的平均平方差。MSE 透過衡量模型預測與實際值的接近程度來確定預測的整體準確性。
MSE 透過對所有資料點計算真實值和預測值之間差異的平方,並取平均值來確定。此過程確保正誤差和負誤差在每個資料點的最終評估中具有同等權重。
MSE = (1/n) * Σ(y − ŷ)^2
透過對誤差進行平方,MSE 放大了較大誤差的影響,並對模型的不準確預測施加更大的懲罰。這強調了最小化預測值和真實值之間顯著偏差的重要性。
MSE 作為損失函式具有幾個優點。首先,它是可微的,這對於依賴導數來更新模型引數的最佳化演算法至關重要。其次,MSE 是一個非負值,其中 0 表示預測值和真實值完全匹配。此屬性允許對不同模型進行直接解釋和比較。
二元交叉熵
用於二元分類問題,它衡量預測機率和真實二元標籤之間的差異。
二元交叉熵,也稱為二元對數損失或二元邏輯損失,是二元分類問題中廣泛使用的損失函式。它量化了分類模型生成的預測機率與訓練資料集中真實二元標籤之間的差異。二元交叉熵的目的是評估模型的預測機率與實際二元結果的匹配程度。
BCE = −(1/n) * Σ[y * log(ŷ) + (1 − y) * log(1 − ŷ)]
二元交叉熵損失函式根據預測機率和真實標籤之間的差異對模型進行懲罰。當預測機率接近真實標籤時,損失較小。但是,隨著預測機率偏離真實標籤,損失會增加,表明差異更大。
二元交叉熵公式中對數的使用確保當預測機率接近真實標籤(0 或 1)時損失最小化。它還可以防止當預測機率接近 0 或 1 時損失變為無限大。
二元分類的目的是在模型訓練階段最小化二元交叉熵損失。這是透過使用諸如梯度下降之類的最佳化技術來實現的,這些技術迭代地更新引數以找到最小化損失的最佳值。
作為損失函式,二元交叉熵具有多種優勢。首先,它是可微的,允許使用基於梯度的方法進行快速最佳化。其次,它提供了一個連續且平滑的損失面,從而實現可靠且穩定的訓練。此外,它非常適合於不平衡的資料集,其中一個類可能比另一個類多得多。
多類別交叉熵
適用於多類別分類問題,它量化預測類別機率和真實類別標籤之間的差異。
多類別交叉熵是多類別分類任務中常用的損失函式。它計算分類模型提供的預測類別機率與訓練資料集中真實類別標籤之間的差異。在多類別設定中,多類別交叉熵用於評估模型的預測機率與實際類別標籤的匹配程度。
在多類別分類中,目標變數可以取兩個以上類別。模型生成的預測類別機率表示每個類別的可能性。多類別交叉熵衡量這些預測機率與真實類別標籤之間的差異,考慮所有可能的類別。
CCE = −(1/n) * ΣΣ[y * log(ŷ)]
在多類別交叉熵損失函式中,計算預測機率的對數,並將其乘以真實類別標籤指示器。此方法確保當實際類別的預測機率較大時損失減小,並且當模型為正確類別分配低機率時對模型進行懲罰。
在多類別分類中,多類別交叉熵損失在所有類別中累加,並在整個資料集中取平均值。它指示模型的預測機率與真實類別標籤的匹配程度,較低的值表示更好的匹配。
多類別分類的目標是在模型訓練過程中最小化多類別交叉熵損失。這通常透過諸如梯度下降之類的最佳化演算法來實現,這些演算法迭代地調整模型的引數以最小化損失。
多類別交叉熵作為損失函式具有多個優點。首先,它是可微的,可以使用基於梯度的方法進行高效最佳化。其次,它鼓勵模型為正確的類別分配高機率,為不正確的類別分配低機率,從而促進準確的分類。此外,它提供了一個連續且平滑的損失面,有利於穩定且有效的訓練。
平均絕對誤差 (MAE)
計算預測值和真實值之間的平均絕對差,經常在迴歸任務中代替 MSE 使用。
在迴歸問題中,平均絕對誤差 (MAE) 是一個常用的損失函式。它計算迴歸模型的預測值與訓練資料集中真實值之間的平均絕對差。MAE 衡量誤差的平均大小,而不考慮其方向,並且當關注的是絕對差而不是平方差時,它經常用作均方誤差 (MSE) 的替代方法。
MAE = (1/n) * Σ|y − ŷ|
MAE 計算每個資料點預測值和真實值之間的絕對差,將它們加起來,然後取平均值。這確保了正誤差和負誤差對整體評估的貢獻相同,而不會被平方或加權。
MAE 作為損失函式具有幾個優點。首先,它易於解釋,因為它代表預測值和真實值之間的平均絕對誤差。其次,MAE 不具有 MSE 擁有的尺度敏感性問題。它與目標變數的尺度無關,使其適用於跨不同資料集比較模型或當測量單位不同時的情況。
結論
資料科學的目標是透過最佳化演算法調整模型的引數或超引數來最小化損失函式。最小化損失函式會產生一個提供更準確預測並更好地擬合訓練資料的模型。
資料結構
網路
關係型資料庫管理系統 (RDBMS)
作業系統
Java
iOS
HTML
CSS
Android
Python
C語言程式設計
C++
C#
MongoDB
MySQL
Javascript
PHP