判別分析的效能如何?


判別分析方法依賴於兩個主要假設才能得到分類分數——首先,它認為某些類別中的預測變數測量值來自多元正態分佈。當這個假設合理成立時,判別分析比其他分類方法(包括邏輯迴歸)更有效。

研究表明,如果資料符合多元正態分佈,判別分析比邏輯迴歸有效率提高 30%,它只需要 30% 的資料量就能達到相同的精度。研究還表明,該方法對偏離正態性的情況具有較強的魯棒性,即預測變數可以是非正態的,甚至可以是虛擬變數。

這在最小類別足夠大(大約超過 20 條記錄)的情況下是成立的。這種方法對單變數(單個預測變數)和多變數區域的異常值都比較敏感。應使用探索性分析來定位極端值,並確定是否可以將其移除。

判別分析的第二個假設是,在一個類別中多個預測變數之間的相關結構在各個類別之間是相同的。這可以透過分別計算每個類別的預測變數之間的相關矩陣並比較這些矩陣來檢查。

如果相關性在各個類別之間差異很大,則分類器將傾向於將記錄劃分到方差最大的類別中。當相關結構存在顯著差異且資料集較大時,可以使用二次判別分析作為替代方法。

一種折衷的方法是進行一些關於正態性和相關性的探索性分析,訓練並計算模型,然後根據分類精度和從初始探索中獲得的知識,回過頭來進一步探索是否需要檢查異常值或重新選擇預測變數。

使用驗證集來評估效能的論點仍然適用。例如,在割草機家族中,1、13 和 17 號被錯誤分類。這意味著該模型對於這些記錄的錯誤率為 12.5%。

這個比率是一個有偏差的度量——它是樂觀的,因為它使用了相同的資料來擬合分類函式和計算錯誤。因此,與許多模型一樣,它可以在一個驗證集上檢查效能,該驗證集包含未用於計算分類函式的資料。

可以從判別分析中獲得混淆矩陣,這需要精確的分類分數或從分類分數計算出的機率(類別成員的機率)。在這兩種情況下,每條記錄的類別分配都取決於最大的分數或機率。可以將這些分類與這些資料的實際類別成員進行比較。這將產生混淆矩陣。

更新於:2022年2月10日

258 次瀏覽

開啟您的職業生涯

透過完成課程獲得認證

開始學習
廣告