資料中的多重共線性

在資料分析領域，理解變數之間的關係至關重要。然而，在某些情況下，這些關係可能過於複雜，導致一種稱為多重共線性的現象。多重共線性在解釋統計模型中單個變數的影響時可能帶來挑戰。在本文中，我們將探討多重共線性的概念、主要型別、成因，並提供一個例子來說明其影響。

在本文中，我們將詳細探討多重共線性的概念。我們將深入研究其主要型別，檢查導致資料集中出現多重共線性的原因，並提供一個實際例子來說明其潛在影響。透過全面瞭解多重共線性，分析師可以採用適當的策略和技術來有效地處理這種現象，確保其統計模型的有效性和可靠性。

什麼是多重共線性？

多重共線性是指在迴歸分析中兩個或多個自變數之間存在高度相關性或線性依賴性。這是一種預測變數在統計模型中不獨立的情況，可能導致係數估計出現問題。換句話說，多重共線性表明一個預測變數可以用其他預測變數的線性組合來表示，這使得難以確定每個變數在模型中的獨特貢獻。

多重共線性的存在會扭曲統計模型的結果，並阻礙辨別變數之間真實關係的能力。係數可能變得不穩定，標準誤差可能顯著增加，並且對單個預測變數影響的解釋可能會變得模稜兩可。因此，必須瞭解多重共線性的型別、成因和後果，以便解決和減輕其對資料分析的影響。

多重共線性的主要型別

多重共線性主要分為兩種型別：完全多重共線性和不完全多重共線性。

完全多重共線性是指預測變數之間存在精確的線性關係。例如，如果我們有一個包含變數 A、B 和 C 的資料集，並且變數 C 是 A 和 B 的精確和，則存在完全多重共線性。
另一方面，不完全多重共線性是指預測變數之間存在高度相關性，但並非完全精確。這種形式的多重共線性仍然會影響迴歸係數的解釋和整體模型。

多重共線性的成因

以下幾個因素可能導致資料中出現多重共線性：

冗餘變數：包含高度相似或測量相同潛在概念的變數可能會引入多重共線性。例如，在模型中同時包含以釐米和英寸為單位的身高作為預測變數可能會導致多重共線性。
資料轉換：轉換變數，例如取對數或平方，有時會產生多重共線性。這些轉換可能會放大變數之間已有的關係。
過度擬合：過度擬合是指模型過於複雜，並捕獲資料中的噪聲或隨機波動。相對於樣本大小包含過多的預測變數會增加多重共線性的風險。

示例

讓我們考慮一個例子來說明多重共線性的影響。假設我們想根據諸如平方英尺、臥室數量和浴室數量等變數來預測房價。然而，浴室數量與臥室數量高度相關，因為臥室數量較多的房子往往浴室數量也較多。這種相關性導致多重共線性，使得難以準確確定臥室和浴室對房價的個體影響。

import pandas as pd
import statsmodels.api as sm

# Creating a sample dataset
data = {
   'square_footage': [1000, 1500, 1200, 1800, 900],
   'bedrooms': [2, 3, 2, 3, 1],
   'bathrooms': [1, 1, 2, 2, 1],
   'price': [200000, 250000, 220000, 280000, 180000]
}

df = pd.DataFrame(data)

# Adding a constant column for the intercept
df['intercept'] = 1

# Creating the independent variables matrix X and the dependent variable vector y
X = df[['square_footage', 'bedrooms', 'bathrooms', 'intercept']]
y = df['price']

# Fitting the linear regression model
model = sm.OLS(y, X).fit()

# Printing the model summary
print(model.summary())

輸出

                           OLS Regression Results                            
    ==============================================================================
    Dep. Variable:                  price   R-squared:                       0.966
    Model:                            OLS   Adj. R-squared:                  0.932
    Method:                 Least Squares   F-statistic:                     29.14
    Date:                [Current Date]   Prob (F-statistic):             0.0155
    Time:                        [Current Time]   Log-Likelihood:                -49.399
    No. Observations:                   5   AIC:                             106.8
    Df Residuals:                       1   BIC:                             105.3
    Df Model:                           3                                         
    Covariance Type:            nonrobust                                         
    ==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
    ------------------------------------------------------------------------------
    square_footage   83.3333     37.773      2.206      0.239    -366.572     533.239
    bedrooms    -25083.3333  3.196e+04     -0.784      0.597   -2.68e+05    1.93e+05
    bathrooms    30833.3333  2.239e+04      1.377      0.409   -3.67e+05    4.61e+05
    intercept  -125833.3333  1.214e+05     -1.036      0.484   -2.78e+06    2.54e+06
    ==============================================================================
    Omnibus:                          nan   Durbin-Watson:                   1.000
    Prob(Omnibus):                    nan   Jarque-Bera (JB):                0.783
    Skew:                           0.000   Prob(JB):                        0.676
    Kurtosis:                       1.000   Cond. No.                         6.75
    ==============================================================================

結論

多重共線性是資料分析中一個常見問題，它會影響統計模型的可靠性和解釋。它發生在自變數之間存在高度相關性或線性依賴性時。通過了解多重共線性的型別和成因，分析師可以採取措施來減輕其影響，例如去除冗餘變數或使用正則化技術。意識到多重共線性及其潛在後果對於進行準確和可靠的分析至關重要。

Amrinder Singh

更新於：2023年7月19日

瀏覽量：136

啟動您的職業生涯

透過完成課程獲得認證

開始