斯皮爾曼等級相關係數
相關性是一種統計方法,用於確定兩個變數之間相關程度。斯皮爾曼等級相關係數,通常稱為斯皮爾曼秩相關係數(Spearman's rho),是一種非引數相關性度量,用於評估兩個變數的單調性。它以其發明者查爾斯·斯皮爾曼的名字命名,他於 1904 年創造了它。假設我們需要確定兩個人之間的年齡差異。可以使用斯皮爾曼等級係數。相關性有兩種型別
引數相關性:因為它評估兩個變數(x 和 y)之間的線性依賴性,並且取決於資料分佈,所以被稱為引數相關性檢驗。
非引數相關性:非引數相關性定義為基於秩的相關係數。
斯皮爾曼相關公式
$\mathrm{r_{s}=1-\frac{6\sum d_i^{2}}{n(n^{2}-1)}}$
$\mathrm{r_{s}}$=斯皮爾曼相關係數
$\mathrm{\sum d_i^{2}}$=兩個變數秩的平方差之和
n = 觀察值的數量
演算法
斯皮爾曼等級相關係數計算演算法
給定 n 個觀察值和兩個變數 X 和 Y。
分別對 X 和 Y 值進行排序。根據值的順序分配等級,最低值分配等級 1,最高值分配等級 n。
計算每個觀察值的 X 和 Y 等級之間的差值 (d)。
將每個差值 (d) 平方,得到 $\mathrm{d^{2}}$。
計算平方差之和,$\mathrm{\sum d^{2}}$。
使用以下公式計算斯皮爾曼等級相關係數 (rs):$\mathrm{r_{s}=1-(6*\sum d^{2})/(n*(n^{2}-1))}$
所得 rs 值表示 X 和 Y 單調關係的強度和方向。值為 1 表示存在完美的正相關,值為 -1 表示存在完美的負相關,值為 0 表示不存在相關性。
示例 1
現在我們瞭解了相關係數是什麼。讓我們來看一個例子,看看如何計算斯皮爾曼等級相關係數。假設我們有以下資訊
| X | 1 | 2 | 3 | 4 | 5 |
| Y | 3 | 5 | 4 | 1 | 2 |
首先,我們需要對 X 和 Y 的值進行排序
| X | 1 | 2 | 3 | 4 | 5 |
| RankX | 1 | 2 | 3 | 4 | 5 |
| Y | 3 | 5 | 4 | 1 | 2 |
| RankX | 3 | 5 | 4 | 1 | 2 |
接下來,讓我們計算 X 和 Y 等級之間的差值和 $\mathrm{d^{2}}$
| d | -2 | -3 | -1 | 3 | 3 |
| $\mathrm{d^{2}}$ | 4 | 9 | 1 | 9 | 9 |
因此,$\mathrm{d^{2}=22}$
現在,我們終於可以將此值用於上述公式
$\mathrm{r_{s}=1-(6*\sum d^{2})/(n*(n^{2}-1))}$
$\mathrm{r_{s}=1-(6*22)/(5*(5^{2}-1))}$
$\mathrm{r_{s}=1-0.559}$
$\mathrm{r_{s}=0.441}$
輸出
因此,對於給定的資料,斯皮爾曼等級相關係數為 0.441,表明 X 和 Y 之間存在中等程度的正相關。
示例 2
讓我們再舉一個例子來了解如何計算斯皮爾曼等級相關係數。假設我們有以下資料
| X | 1 | 2 | 3 | 4 | 5 |
| Y | 1 | 2 | 3 | 4 | 5 |
首先,我們需要對 X 和 Y 的值進行排序
| X | 1 | 2 | 3 | 4 | 5 |
RankX |
1 | 2 | 3 | 4 | 5 |
| Y | 1 | 2 | 3 | 4 | 5 |
| RankX | 1 | 2 | 3 | 4 | 5 |
接下來,讓我們計算 X 和 Y 等級之間的差值和 $\mathrm{d^{2}}$
| d | 0 | 0 | 0 | 0 | 0 |
| $\mathrm{d^{2}}$ | 0 | 0 | 0 | 0 | 0 |
因此,$\mathrm{d^{2}=0}$
現在,我們終於可以將此值用於上述公式
$\mathrm{r_{s}=1-(6*\sum d^{2})/(n*(n^{2}-1))}$
$\mathrm{r_{s}=1-(6*0)/(5*(25-1))}$
$\mathrm{r_{s}=1-0}$
$\mathrm{r_{s}=1}$
輸出
因此,對於給定的資料,斯皮爾曼等級相關係數為 1,表明 X 和 Y 之間存在完美的正相關。
優點
斯皮爾曼等級相關係數是一種非引數相關性度量,它不對變數的分佈做任何假設。
它能夠處理正態和非正態資料,使其可用於評估皮爾遜相關係數無法處理的資料。
斯皮爾曼等級相關係數易於計算和理解。
這種方法更容易理解和學習。
它更適合計算定性觀察結果,例如人們的智力、外貌等等。
當序列只提供偏好順序而不是變數的實際值時,這種方法是合適的。
缺點
在檢測和分析線性關係方面,斯皮爾曼等級相關係數可能不如皮爾遜相關係數有效。
它可能不適合具有極端值或異常值的資料。
它沒有提及相關性的方向,即它是正相關還是負相關。
結論
我們討論了斯皮爾曼等級相關性及其如何用於檢測兩個變數之間的強度和關聯。
我們還討論了相關性的型別
引數相關性
非引數相關性
它易於計算,是非引數的,並且適用於非正態資料。但是,它可能不適用於具有極端值或異常值的資料,並且在檢測線性關係方面不如皮爾遜相關係數強大。因此,在決定相關係數之前,研究人員必須仔細考慮其資料的性質。
資料結構
網路
關係型資料庫管理系統 (RDBMS)
作業系統
Java
iOS
HTML
CSS
Android
Python
C語言程式設計
C++
C#
MongoDB
MySQL
Javascript
PHP