理解精確率和召回率


介紹

建立任何機器學習模型時,我們首先想到的是如何建立一個準確且“擬合良好”的模型,以及在此過程中會遇到哪些問題。機器學習中最重要但也最令人困惑的兩個概念是召回率和精確率。精確率和召回率是機器學習中模式識別和分類的效能指標。要構建一個完美的機器學習模型,從而產生更精確和準確的結果,就需要理解這些概念。在機器學習中,有些模型需要更高的召回率,而另一些模型需要更高的精確率。因此,理解精確率-召回率權衡,或者簡單地說,精確率和召回率之間的平衡至關重要。

本文將解釋精確率和召回率,這是許多專業人員在整個資料科學和機器學習生涯中遇到的最具挑戰性但又最關鍵的機器學習主題之一。但首先,我們必須理解混淆矩陣的概念。

機器學習中的混淆矩陣

混淆矩陣是一種工具,可以顯示機器學習模型的效能或其預測結果。

使用混淆矩陣,我們可以看到我們的模型在嘗試區分兩個類別時存在哪些不足。一個 2 x 2 矩陣,其中行包含實際的真實標籤,列代表預測的標籤,這使得它易於理解。

預測值
實際值 正例 反例
正例 真正例 (True Positive) 假反例 (False Negative)
反例 假正例 (False Positive) 假反例 (False Negative)

這個矩陣有四個主要組成部分,每個部分都提供不同的度量來計算準確和不準確預測的數量。每個元素包含兩個詞,其中一個是真 (True) 或假 (False),正例或反例。

如果預測標籤和真實標籤一致,則預測被認為是正確的;但如果預測標籤和真實標籤不匹配,則預測被認為是錯誤的。此外,矩陣中的預測標籤由正例和反例表示。

混淆矩陣有四個指標組合,如下所示:

  • 真正例 (True Positive) - 此組合顯示模型將正樣本準確地標記為正例的頻率。

  • 假反例 (False Negative) - 此組合顯示模型錯誤地將正樣本識別為反例的頻率。

  • 假正例 (False Positive) - “假正例”表示模型將反樣本錯誤分類為正例的次數。

  • 真反例 (True Negative) - 此組合顯示模型正確地將反樣本識別為反例的頻率。

精確率

精確率是指正確分類的正樣本 (真正例) 與所有被分類為正樣本的樣本總數(正確或錯誤)的比例。

因此,精確率有助於瞭解機器學習模型在將模型分類為正例方面的可靠性。

精確率 = TP / (TP + FP)

我們可以用它來衡量模型對正樣本進行分類的準確程度。在計算模型的精確率時,我們必須考慮被識別的正例和反例資料。當模型正確識別大多數正樣本以及許多假正例時,該模型被認為具有高召回率和低精確率。確定機器學習模型的準確性需要正例和反例樣本。在精確率中,應考慮所有正樣本,無論它們是正確還是錯誤地被識別為正例。

召回率

召回率定義為正確識別為正例的正樣本比例與所有正樣本的比例。召回率衡量模型識別正樣本的能力。識別的正樣本越多,召回率越高。

召回率 = TP / (TP + FN)

與精確率相反,召回率不受錯誤樣本分類數量的影響。此外,如果模型將所有正例資料標記為正例,則召回率將為 1。

它有助於量化機器學習模型正確識別的正樣本數量。確定模型的召回率只需要正樣本;所有反樣本都被忽略。如果模型只能將少量正樣本分類為正例,則該模型被認為具有高準確率、高精確率和低召回率。機器學習模型的召回率受正例的影響,不受反例的影響。正確識別所有正樣本對於召回率至關重要。它不考慮將任何反樣本分類為正例。

為什麼在機器學習模型中使用精確率和召回率?

所有資料科學家和機器學習工程師經常互相問這個問題。根據處理的問題型別,使用精確率和召回率的方法不同。如果需要將正例和反例樣本都分類為正例,無論分類是否準確,都應使用精確率。另一方面,如果您的目標只是查詢正樣本,則使用召回率。在這裡,反樣本是否被正確或錯誤地標記並不重要。

結論

在本課程中,我們介紹了用於機器學習模型二元分類的各種效能指標,包括混淆矩陣、精確率和召回率。此外,我們還看到了如何確定機器學習模型的精確率和召回率以及何時應用每一個的幾個示例。

更新於:2023年3月10日

366 次瀏覽

開啟你的職業生涯

完成課程獲得認證

開始學習
廣告