為什麼普通最小二乘法 (OLS) 不是一個好的選擇?


簡介

普通最小二乘法是線性迴歸分析中一種廣受歡迎且常用的方法 (OLS)。然而,對於資料分析和預測,它並不總是最佳選擇。OLS 存在一些侷限性和假設,如果處理不當,可能會導致偏差和錯誤的結果。本文將介紹 OLS 的缺點和侷限性,以及它可能不適合所有資料集和應用的一些原因。我們還將探討其他迴歸分析方法和技術,這些方法可以克服 OLS 的缺點,並提供更準確和可靠的結果。

資料科學家和分析師可以通過了解 OLS 的缺點並探索替代方案,為其獨特的資料集和應用選擇最佳方法。

這將提高其預測和分析的精度和質量。

什麼是普通最小二乘法 (OLS)?

OLS 透過最小化預期值和實際值之間殘差平方和來尋找最適合給定資料集的直線。殘差是預測值和實際值之間的差異。最適合的直線具有最小的殘差平方和。為了使 OLS 能夠工作,殘差必須正態分佈且具有恆定方差。

OLS 是一種簡單易懂的方法,不需要複雜的計算或底層資料假設。但是,重要的是要認識到 OLS 存在一些缺點。

使用普通最小二乘法 (OLS) 的缺點

普通最小二乘法 (OLS) 的一些缺點包括:

  • 對異常值敏感:由於 OLS 對異常值非常敏感,因此資料中的異常值可能會嚴重影響模型的效能。如果資料集中存在異常值,則使用 OLS 獲得的迴歸係數估計可能會產生偏差。

  • OLS 假設自變數和因變數之間存線上性關係。如果此假設不成立,則 OLS 模型可能會產生錯誤的結果。

  • 誤差的正態性和恆定方差的假設:OLS 假設模型的誤差既是正態分佈的,又具有恆定方差。如果誤差不是正態分佈的或具有非恆定方差,則它可能會導致迴歸係數估計產生偏差以及錯誤的預測。

  • 無法處理分類變數:OLS 不適合處理分類變數或變數之間的互動作用,而這些因素在許多現實世界的應用中可能是重要的因素。在這種情況下,其他迴歸技術(如邏輯迴歸或決策樹)可能更合適。

  • 過擬合:如果模型過於複雜或預測變數過多,OLS 可能會出現過擬合。這可能導致對新資料的泛化效能下降。

  • OLS 假設預測變數之間沒有高度相關性。如果存在多重共線性或預測變數之間存在顯著相關性,則迴歸係數估計可能會不穩定。

  • 缺乏穩健性:OLS 對假設違反不具有穩健性。假設的細微變化可能會導致迴歸係數估計發生巨大變化。

普通最小二乘法 (OLS) 的替代方法

儘管存在這些缺點,但由於其簡單性和易用性,OLS 仍然是迴歸分析中一種流行的方法。但是,可以使用各種其他方法來克服 OLS 的侷限性。以下是一些示例:

  • 使用普通最小二乘法 (OLS) 的一種替代方法是使用穩健迴歸方法,例如 Huber 迴歸或 M 估計。這些方法旨在處理違反 OLS 假設的異常值和重尾分佈。

  • Huber 迴歸是 OLS 和 M 估計的混合體。它使用一個損失函式,對於小的誤差是二次的,對於大的誤差是線性的,這使得它比 OLS 對異常值不太敏感。確定二次損失和線性損失之間切換的引數稱為調整常數。如果將調整常數設定為零,則 Huber 迴歸等價於 OLS。隨著調整常數的增加,估計量對異常值變得更加穩健。

  • M 估計是一種穩健迴歸方法,它側重於最小化某個目標函式。目標函式是損失函式和權重函式的混合體。損失函式計算觀察值和預測資料之間的差異,但權重函式為不太可能是異常值的觀察值賦予更大的權重。

  • 迭代加權最小二乘 (IRLS) 估計量是一種常見的 M 估計量。IRLS 估計量根據模型引數的當前估計值重複更新權重函式。在每次迭代中,權重函式為具有較大殘差的觀察值分配更大的權重,從而減少異常值對引數估計的影響。

  • OLS 的另一種替代方法是使用非引數迴歸方法,例如核迴歸或樣條迴歸。非引數迴歸方法不假設預測變數和響應變數之間關係的特定函式形式。相反,它們使用靈活的函式來估計關係,這些函式可以適應資料。

  • 核迴歸透過對相鄰觀察值的響應變數進行平均來工作,並由一個核函式加權,該核函式為更接近的觀察值分配更大的權重。核函式的頻寬引數確定估計函式中的平滑程度。

  • 樣條迴歸透過將預測變數範圍劃分為區間並在每個區間擬合一個單獨的多項式函式來工作。多項式的次數和區間的數量由交叉驗證或其他模型選擇標準確定。樣條迴歸可以捕獲預測變數和響應變數之間的非線性關係,但它可能不如引數迴歸模型易於解釋。

結論

總而言之,雖然 OLS 是一種流行的線性迴歸分析方法,但它存在各種侷限性和假設,這些侷限性和假設可能會導致偏差和錯誤的結果。瞭解 OLS 的侷限性並探索其他方法(如穩健迴歸、嶺迴歸和 LASSO 迴歸),這些方法可以克服這些限制併產生更準確和一致的結果,這一點至關重要。資料科學家和分析師可以透過使用這些替代方法以及對哪種方法適合其資料集和應用做出明智的判斷,來提高其預測和分析的質量和準確性。

更新於:2023年7月24日

297 次檢視

開啟你的 職業生涯

透過完成課程獲得認證

開始學習
廣告

© . All rights reserved.