多元迴歸


介紹

  • 在學習多元線性迴歸之前,讓我們先了解一下什麼是線性迴歸。

  • 線性迴歸有助於確定資料集中兩個變數之間的關係。如前所述,線性迴歸僅限於兩個變數。

  • 因此,多元線性迴歸有助於確定兩個以上變數之間的關係。

  • 雖然多元線性迴歸無法克服線性迴歸的弱點,但它被用於構建具有多個自變數和單個因變數的迴歸模型。

  • 多元線性迴歸最常用於計量經濟學和金融推斷。

定義

  • 簡單線性迴歸是一種工具,使我們能夠根據其他變數的已知資訊來預測資料集中某個變數的值。

  • 多元線性迴歸是一種統計工具,它使用多個自變數來預測因變數的結果。

公式

線性迴歸只涉及一個自變數和一個因變數;而在多元線性迴歸中,使用多個自變數來更好地理解因變數。

$$\mathrm{\underline{y}=b_0+b_1 \underline{p_1 }-b_2 \underline{p_2 }.......b_n \underline{p_n }+ϵ}$$

其中,對於n=觀察值的數量:

y 表示因變數

pn 表示解釋變數

b0= y截距,為常數

bp= pn的斜率係數

ϵ= 模型的誤差項。

逐步多元迴歸

  • 逐步迴歸是一個過程,其中使用一個變數來預測迴歸模型,並逐個新增和刪除變數。

  • 逐步多元迴歸也可以描述為一種方法,它確定一個迴歸方程,該方程從一個自變數開始,然後依次新增自變數。

  • 也稱為向前選擇法,在逐步多元迴歸方法中,我們從沒有自變數開始,每次迭代向迴歸中新增一個自變數。

  • 還有一種與向前選擇法相反的方法,稱為向後剔除法,它使用多個變數,並在每次迭代中剔除一個自變數。

殘差 - 殘差變異是迴歸模型解釋的因變數值變異。也稱為隨機誤差,這是由於使用了不同的抽樣方法造成的。

逐步多元迴歸的優點

  • 在迴歸方程中,使用迴歸係數(非零)的自變數。

  • 確定迴歸方程的決定係數和多元標準誤差估計的變化。

  • 使用逐步多元迴歸可以有效地推匯出具有相當數量的迴歸係數的迴歸方程。

多元多元迴歸

  • 通常,使用雙變數水平來尋找統計推斷。對於多元多元迴歸,也已經開發出確定多個變數之間關係的檢驗。

  • 多元迴歸分析是相關分析的擴充套件,用於多元推斷

多重共線性

如果預測變數之間的互相關性很高,則用來解釋這種情況的術語是多重共線性。

多重共線性的跡象

  • 如果一對預測變數之間存在高度相關。

  • 如果迴歸係數的大小或符號沒有物理意義。

  • 如果許多預測變數的迴歸係數不顯著。

  • 預測變數的新增或刪除取決於迴歸係數的大小或符號的顯著性。

已解決示例

1.對於具有兩個預測變數 p_1 和 p_2 和一個響應變數 q 的資料集,應用多元線性迴歸來建立迴歸模型。

q p1 p2
140 60 22
155 62 25
159 67 24
179 70 20
192 71 15
200 72 14
212 75 14
215 78 11
均值 181.5 69.375 18.125
總和 1452 555 145

首先,我們計算迴歸平方和,如下所示:

$$\mathrm{ \sum p_1^2=\sum p_1^2-\sum p_1/n=38767 – (555)^2 / 8 = 263.875}$$

$$\mathrm{ \sum p_2^2=\sum p_2^2-\sum p_2/n= 2823 – (145)^2 / 8 = 194.875 }$$

$$\mathrm{ \sum p_1 q==\sum p_1 q-\sum p_1 \sum q/n== 101895 – (555×1452) / 8 = 1162.5 }$$

$$\mathrm{ \sum p_2 q=\sum p_2 q-\sum p_2 \sum q/n== 25364 – (145×1452) / 8 = -953.5}$$

$$\mathrm{\sum p_1 p_2=\sum p_1 p_2-(\sum p_1 p_2)/n== 9859 – (555×145) / 8 = -200.375}$$

p12 p22 p1 q p2 q p1 p2
3600 484 8400 3080 1320
3844 625 9610 3875 1550
4489 576 10653 3816 1608
4900 400 12530 3580 1400
5041 225 13632 2880 1065
5184 196 14400 2800 1008
5625 196 15900 2968 1050
6084 121 16770 2365 858

為了計算 b_1,我們使用以下公式:$\mathrm{[(\sum p_2^2)(\sum p_1 q)-(\sum p_1 p_2)(\sum p_2 q)]/[(\sum p_1^2)(\sum p_2^2)-(\sum p_1 p_2)^2]}$

因此,$\mathrm{ b_1= [(194.875)(1162.5) – (-200.375)(-953.5)] / [(263.875) (194.875) – (-200.375)^2] }$

$$\mathrm{ b_1=3.148}$$

計算 b2 的公式為:$\mathrm{[(\sum p_1^2)(\sum p_2 q)-(\sum p_1 p_2)(\sum p_1 q)]/[(\sum p_1^2)(\sum p_2^2)-(\sum p_1 p_2)^2]}$

因此,$\mathrm{b_2 = [(263.875)(-953.5) – (-200.375)(1152.5)] / [(263.875) (194.875) – (-200.375)^2] }$

$$\mathrm{ b_2=-1.656}$$

計算 b0 的公式為:$\mathrm{\underline{y}-b_1 \underline{p_1}-b_2 \underline{p_2}}$

因此,$\mathrm{b_0= 181.5 – 3.148(69.375) – (-1.656)(18.125) = -6.867}$

將b0、b1和b2的值代入方程。

線性迴歸方程將由下式給出:

$$\mathrm{\hat{y} = b_0 + b_1×p_1 + b_2×p_2}$$

$$\mathrm{\hat{y}=-6.867 + 3.148\: p_1 – 1.656\: p_2}$$

現在讓我們分析上述線性方程的結果

b0 = -6.867。當 p_1 和 p2 都等於零時,y 的平均值為 -6.867。

b1= 3.148。假設 p2 為常數,p_1 增加一個單位對應於 q 增加 3.148 個單位。

b2=-1.656。假設 p1 為常數,p2 增加一個單位對應於 q 減少 1.656 個單位。

結論

  • 多元迴歸是線性迴歸模型的替代方案,允許對具有多個自變數的系統進行預測。

  • 線性迴歸是一種有用的工具,它利用單個因變數和自變數之間的線性關係。

  • 多元線性迴歸最常用於計量經濟學和金融推斷。

  • 逐步迴歸是一個過程,其中使用一個變數來預測迴歸模型,並逐個新增和刪除變數。

  • 多元迴歸分析是相關分析的擴充套件,用於多元推斷

常見問題

1. 線性迴歸的用途是什麼?

藉助線性迴歸,可以預測一段時間內石油價格、利率和石油價格走勢,這些都會影響股票價格。

2. 線性迴歸的侷限性是什麼?

線性迴歸僅限於兩個變數,一個因變數和一個自變數。

3. 多元線性迴歸的用途是什麼?

多元線性迴歸最常用於計量經濟學和金融推斷。

4. 什麼是逐步多元迴歸過程?

逐步迴歸是一個過程,其中使用一個變數來預測迴歸模型,並逐個新增和刪除變數。

5. 什麼是向後剔除法?

向後剔除法使用多個變數,並在每次迭代中剔除一個自變數。

更新於:2024年3月4日

196 次瀏覽

啟動您的職業生涯

完成課程獲得認證

開始
廣告
© . All rights reserved.