如何使用Pandas建立相關矩陣?


相關性分析是資料分析中一項至關重要的技術,有助於識別資料集變數之間的關係。相關矩陣是一個表格,顯示資料集變數之間的相關係數。它是一個強大的工具,可以提供對資料中潛在模式的寶貴見解,並廣泛應用於許多領域,包括金融、經濟學、社會科學和工程學。

在本教程中,我們將探討如何使用Pandas(Python中一個流行的資料處理庫)建立相關矩陣。

要使用pandas生成相關矩陣,必須遵循以下步驟:

  • 獲取資料

  • 構建pandas DataFrame

  • 使用pandas生成相關矩陣

示例

現在讓我們研究不同的例子,瞭解如何使用pandas建立相關矩陣。

此程式碼演示如何使用Python中的pandas庫從給定資料集建立相關矩陣。資料集包含三個變數:三個不同時間段的銷售額、支出和利潤。程式碼使用資料建立一個pandas DataFrame,然後使用DataFrame建立一個相關矩陣。

然後提取並顯示銷售額與支出以及銷售額與利潤之間的相關係數以及相關矩陣。相關係數表示兩個變數之間的相關程度,“1”表示完全正相關,“-1”表示完全負相關,“0”表示無相關。

請考慮以下程式碼。

# Import the pandas library
import pandas as pd

# Create a dictionary containing the data to be used in the correlation analysis 
data = {
   'Sales': [25, 36, 12], # Values for sales in three different time periods
   'Expenses': [30, 25, 20], # Values for expenses in the same time periods
   'Profit': [15, 20, 10] # Values for profit in the same time periods
}

# Create a pandas DataFrame using the dictionary
sales_data = pd.DataFrame(data)

# Use the DataFrame to create a correlation matrix
correlation_matrix = sales_data.corr()

# Display the correlation matrix
print("Correlation Matrix:")
print(correlation_matrix)

# Get the correlation coefficient between Sales and Expenses
sales_expenses_correlation = correlation_matrix.loc['Sales', 'Expenses']

# Get the correlation coefficient between Sales and Profit
sales_profit_correlation = correlation_matrix.loc['Sales', 'Profit']

# Display the correlation coefficients
print("Correlation Coefficients:")
print(f"Sales and Expenses: {sales_expenses_correlation:.2f}")
print(f"Sales and Profit: {sales_profit_correlation:.2f}") 

輸出

執行後,您將獲得以下輸出:

Correlation Matrix:
              Sales   Expenses     Profit
Sales      1.000000   0.541041   0.998845
Expenses   0.541041   1.000000   0.500000
Profit     0.998845   0.500000   1.000000
Correlation Coefficients:
Sales and Expenses: 0.54
Sales and Profit: 1.00

對角線上的值表示變數與其自身的相關性,因此對角線值表示相關性為1。

示例

讓我們探索另一個例子。請考慮以下程式碼。

在這個例子中,我們建立了一個包含三列和三行的簡單DataFrame。然後,我們在DataFrame上使用.corr()方法計算相關矩陣,最後將相關矩陣列印到控制檯。

# Import the pandas library
import pandas as pd

# Create a sample data frame
data = {
   'A': [1, 2, 3],
   'B': [4, 5, 6],
   'C': [7, 8, 9]
}
df = pd.DataFrame(data)

# Create the correlation matrix
corr_matrix = df.corr()

# Display the correlation matrix
print(corr_matrix) 

輸出

執行後,您將獲得以下輸出:

     A    B    C
A  1.0  1.0  1.0
B  1.0  1.0  1.0
C  1.0  1.0  1.0 

結論

總之,使用Python中的pandas建立相關矩陣是一個簡單的過程。首先,使用所需資料建立一個pandas DataFrame,然後使用.corr()方法計算相關矩陣。生成的相關矩陣提供了對不同變數之間關係的寶貴見解,對角線值表示每個變數與其自身的相關性。

相關係數範圍為-1到1,其中越接近-1或1的值表示相關性越強,而越接近0的值表示相關性越弱或無相關性。相關矩陣可用於廣泛的應用,例如資料分析、金融和機器學習。

更新於:2023年4月20日

1000+ 次瀏覽

啟動您的職業生涯

完成課程獲得認證

開始學習
廣告
© . All rights reserved.