卡爾·皮爾遜相關係數
相關係數
相關係數通常用於統計學中,以衡量兩個變數之間的關係。相關性通常表示兩個變數(例如 X 和 Y)之間線性關係程度的特定值。統計學中使用了許多型別的相關係數。然而,卡爾·皮爾遜相關係數(也稱為皮爾遜 R)是線性迴歸中最常用的相關係數。
相關係數的型別
根據變數之間關係的方向,相關性可分為三種類型:
正相關 (0 到 +1)
負相關 (0 到 -1)
零相關 (0)
正相關 (0 到 +1)
在這種情況下,X 和 Y 之間兩個函式的變化方向或發生方向相同。例如,燃煤量的增加會導致燃煤動力火車中燃燒的電力數量增加。
負相關 (0 到 -1)
在這種情況下,X 和 Y 變數之間的變化方向相反。例如,隨著商品價格上漲,其需求下降。
零相關 (0)
在零相關的情況下,變數之間沒有關係。例如,食物攝入量的增加不會影響一個人的駕駛能力。
皮爾遜相關係數
卡爾·皮爾遜相關係數是一種常用的數學方法,其中使用數值表示來衡量兩個線性相關變數之間關係的程度。相關係數用“r”表示。
實際平均數法
在實際平均數法中,它表示為
$\mathrm{r\:=\:\frac{\sum\:(X\:-\:\bar{X})\:(Y\:-\:\bar{Y})}{\sqrt{\sum\:(X\:-\:\bar{X})^{2}}\:\sqrt{\sum\:(Y\:-\:\bar{Y})^{2}}}}$
其中,$\mathrm{\bar{X}\:=\:X\:變數的平均數}$
$\mathrm{\bar{Y}\:=\:Y\:變數的平均數}$
這種皮爾遜相關的表達方法稱為實際平均數法。
假設平均數法
還有一種稱為假設平均數法的方法來表達相關係數。假設平均數法表示為
假設平均數法
$\mathrm{d_{x}\:=\:X\:-\:A}$
$\mathrm{d_{y}\:=\:Y\:-\:A}$
$\mathrm{r\:=\:\frac{N\:\sum\:d_{x}\:d_{y}\:-\:(\sum\:d_{x})\:(\sum\:d_{y})}{\sqrt{N\:\sum\:d_x^2\:-\:(\sum\:d_{x})^{2}}\:\sqrt{N\:\sum\:d_y^2\:-\:(\sum\:d_{y})^{2}}}}}$
在這個卡爾·皮爾遜相關公式中:
dx = x 系列與假設平均數的偏差,其中 (X - A)
dy = Y 系列與假設平均數的偏差 = (Y - A)
Σdx.dy 表示多個 dx 和 dy 的總和。
Σdx² 是 dx 平方和。
Σdy² 是 dy 平方和。
Σdx 是 X 系列偏差的總和。
Σdy 是 Y 系列的總和,並且
N 是成對觀測的數量。
步進偏差法
表示為
$\mathrm{r\:=\:\frac{dX^{'}\:dY^{'}\:-\:\frac{\sum\:d^{'}\:X\:\sum\:d\:Y^{'}}{N}}{\sqrt{(\sum\:d\:x^{1})^{2}\:-\:\frac{(\sum\:d\:x^{1})^{2}}{N}}\:\sqrt{(\sum\:d\:y^{'})^{2}\:-\:\frac{(\sum\:d\:y^{'})^{2}}{N}}}}$
在這個特定的卡爾·皮爾遜方法中:
dx′=dxC1
dy′=dyC2
C1 = x 系列的公因子
C2 = y 系列的公因子
dx 是 x 系列與假設平均數的偏差,其中 (X - A)
dy 是 Y 系列與假設平均數的偏差,其中 (Y - A)
Σdx.dy 表示多個 dx 和 dy 的總和。
Σdx² 是 dx 平方和。
Σdy² 是 dy 平方和。
Σdx 是 X 系列偏差的總和。
Σdy 是 Y 系列的總和。
N 是成對觀測的數量。
卡爾·皮爾遜相關係數的主要特徵
相關係數 (r) 沒有單位。
如果 r 為正值,則表示 X 和 Y 方向相同。
如果 r 為負值,則表示 X 和 Y 方向相反。
如果 r 的值為 0,則 X 和 Y 不相關。
r 值越高,表示兩個變數之間的線性關係越強。
r 值越低,表示兩個變數之間的關係越弱。
如果 r 的值為 +1 或 -1,則兩個變數之間的相關性被認為是完美的。
卡爾·皮爾遜相關係數的假設
計算卡爾·皮爾遜相關係數時,必須做出一些假設。
以下是兩個主要假設:
任何兩個變數之間始終存線上性關係。
必須將異常值保持在最小範圍內或完全去除。
異常值是不常用的資料,與其餘資料形成鮮明對比。它可能表示實際上不適合該集合的極端資料。可以透過將資料繪製在圖表紙上並查詢任何極端研究來發現異常值。異常值不會出現在皮爾遜圖上,而是在圖表的極端點上發現。
皮爾遜係數的示例
當相關係數為 (1) 時,表示相關性為正。也就是說,對於一個變數的每次增加,另一個變數都會以固定的比例正向增加。例如,根據腳的長度變化的鞋碼是完美(幾乎)相關的例子。
相關係數為 (-1) 表示對於一個變數的每次正向增加,另一個變數都會成比例地負向減少。例如,氣罐中氣體數量的減少與速度呈完美(幾乎)反相關。
當相關係數為 (0) 時,這兩個變數不相關。
何時使用皮爾遜相關係數
當以下所有條件都為真時,皮爾遜相關係數 (r) 是一個不錯的選擇:
兩個變數都是定量的:如果任何變數都是定性的,則必須選擇不同的方法。
變數服從正態分佈:可以準備每個變數的直方圖,以驗證變數的分佈是否近似正態。如果變數略微非正態,則沒有問題。
資料沒有異常值:異常值是不遵循與其餘資料相同模式的觀測值。散點圖是檢查異常值的好方法——重要的是要查詢與其他點距離極其遠的點。
關係是線性的:“線性”表示兩個變數之間的關係或多或少可以用直線表示。如今,可以使用軟體檢查關係是否線性。
結論
卡爾·皮爾遜相關係數是統計學中研究線性變量回歸的主要工具。它在很多方面都對使用者有所幫助。由於該研究依賴於線性變數,因此易於使用研究結果。該係數的應用非常廣泛,也用於日常生活。為了在製鞋到加油等許多領域獲得更好的認識,該係數可以發揮重要作用。因此,所有希望檢查雙變數研究統計模型的人都應該學習卡爾·皮爾遜相關係數。
常見問題
Q1. 相關係數是什麼意思?
A1. 相關係數通常用於統計學中,以衡量兩個變數之間的關係。相關性通常表示兩個變數(例如 X 和 Y)之間線性關係程度的特定值。
Q2. 計算卡爾·皮爾遜相關係數的假設是什麼?
A2. 計算卡爾·皮爾遜相關係數時,必須做出一些假設。
以下是兩個主要假設:
任何兩個變數之間始終存線上性關係。
必須將異常值保持在最小範圍內或完全去除。