使用Python顯示兩個變數之間的Pearson相關性檢驗


Pearson相關性檢驗是一種簡單的Python統計方法,用於衡量兩個引數變數之間的關係。它有助於以圖形方式衡量兩個變數之間的關係,以便了解變數之間關係的強度以及它們是否相關。要找到Pearson相關性,我們可以使用`pearsonr()`函式。

其值介於-1和1之間,-1表示完全負相關,0表示無關係,1表示完全正相關。

語法

此語法用於以下所有示例。

pearsonr(variable1,variable2)

演算法

  • 步驟1 − 匯入模組和庫。

  • 步驟2 − 定義變數或資料集。

var1=[ ]
var2=[ ] or
If you want to perform on csv file then
   df = pd.read_csv("file_name.csv") 
  • 步驟3 − 應用`pearsonr()`函式計算相關性檢驗。

  • 步驟4 − 現在列印結果。

方法1:這裡我們使用變數來查詢相關性

示例1

查詢兩個變數之間的Pearson相關性檢驗。

from scipy.stats import pearsonr

var1 = [2, 4, 6, 8]   #1st variable
var2 = [1, 3, 5, 7]   #2nd variable

# find Pearson correlation 
correlation,_ = pearsonr(var1, var2)

print('Pearson correlation:', correlation)

輸出

Pearson correlation: 1.0

在此程式碼中,`pearsonr`函式從`scipy.stats`匯入。建立了名為`var1`和`var2`的兩個列表。使用`pearsonr()`函式計算`var1`和`var2`之間的Pearson相關性。為此,`pearsonr()`函式與`var1`和`var2`一起傳遞。Pearson相關性的值儲存在`correlation`中。然後,將列印Pearson相關性。

示例2

查詢兩個變數之間的Pearson相關性檢驗。

from scipy.stats import pearsonr

var1 = [2.2, 4.6, 6.8, 7.8]   #1st variable
var2 = [1.3, 3.2, 5.6, 9.7]   #2nd variable

# find Pearson correlation 
correlation,_ = pearsonr(var1, var2)

print('Pearson correlation:', correlation)

輸出

Pearson correlation: 0.9385130127002226

在此程式碼中,`pearsonr`函式從`scipy.stats`匯入。這裡我們建立了兩個名為`var1`和`var2`的十進位制列表。使用`pearsonr()`函式計算`var1`和`var2`之間的Pearson相關性。為此,`pearsonr()`函式與`var1`和`var2`一起傳遞。Pearson相關性的值儲存在`correlation`中。然後,將列印Pearson相關性。

示例3

查詢兩個變數之間的Pearson相關性檢驗。

from scipy.stats import pearsonr

var1 = [-2, -5, -1, -7]   #1st variable
var2 = [-8, -3, -6, -9]   #2nd variable

# find Pearson correlation 
correlation,_ = pearsonr(var1, var2)

print('Pearson correlation:', correlation)

輸出

Pearson correlation: 0.11437725271791938

在此程式碼中,`pearsonr`函式從`scipy.stats`匯入。這裡我們建立了兩個包含負元素的列表(`var1`和`var2`)。使用`pearsonr()`函式計算`var1`和`var2`之間的Pearson相關性。為此,`pearsonr()`函式與`var1`和`var2`一起傳遞。Pearson相關性的值儲存在`correlation`中。然後,將列印Pearson相關性。

示例4

查詢兩個變數之間的Pearson相關性檢驗。

from scipy.stats import pearsonr

var1 = [-2, 5, -1, -7]   #1st variable
var2 = [-4, -3, -6, 2]   #2nd variable

# find Pearson correlation 
correlation,_ = pearsonr(var1, var2)

print('Pearson correlation:', correlation)

輸出

Pearson correlation: -0.5717997297136825

方法2:這裡我們使用資料集來查詢相關性

示例1

從給定的資料集查詢Pearson相關性檢驗。

您可以從此處下載csv檔案 - student_data

import pandas as pd
from scipy.stats import pearsonr
#adding datasets
df = pd.read_csv("student_clustering.csv")

# Convert dataframe into series
column1 = df['cgpa']
column2 = df['iq']

# find Pearson correlation 
correlation,_ = pearsonr(column1, column2)

print('Pearson correlation:', correlation)

輸出

Pearson correlation: 0.5353007092636304  

#This value indicates a average or intermediate relationship between variables.

在此程式碼中,我們首先從源路徑訪問資料集(student_clustering.csv)。然後,我們從資料集中獲取長度相同的數字列。現在我們應用Pearson相關性函式並找到相關性值。

示例2

從給定的資料集查詢Pearson相關性檢驗。

您可以從此處下載csv檔案 - cardata

import pandas as pd
from scipy.stats import pearsonr

#adding datasets
df = pd.read_csv("cardata.csv")

# Convert dataframe into series
column1 = df['Selling_Price']
column2 = df['Present_Price']

# find Pearson correlation 
correlation,_ = pearsonr(column1, column2)

print('Pearson correlation:', correlation)

輸出

Pearson correlation: 0.8252819190808663  

#This value indicates a strong relationship between variables because it’s near by 1.

在此程式碼中,我們首先從源路徑訪問資料集(cardata.csv)。然後,我們從資料集中獲取長度相同的數字列。現在我們應用Pearson相關性函式並找到相關性值。

結論

總而言之,Pearson相關性檢驗對於任何希望瞭解模式和相關性的資料工作者來說都是一項重要的工具。您可以使用Python和scipy庫輕鬆執行此測試,並瞭解有關兩個變數之間連線的模式和值的重要詳細資訊。

更新於:2023年9月29日

274次瀏覽

啟動您的職業生涯

透過完成課程獲得認證

開始
廣告