資料科學中的Pairplot是什麼?


資料的視覺化表示稱為資料視覺化。由於 Python 包中專注於資料的出色生態系統,因此它對於資料分析至關重要。以簡單易懂的方式總結和呈現大量資料也有助於理解資料,無論資料多麼複雜,以及資料的價值。它還有助於有效且清晰地傳遞資訊。

我們可以使用 Seaborn Pairplot 視覺化資料集中變數之間的成對關係。將大量資料濃縮成一個圖形,使資料具有良好的視覺表示並有助於我們理解資料。當我們探索並熟悉我們的資料集時,這一點至關重要。

在執行探索性資料分析 (EDA) 時,pairplot 視覺化很有用。pairplot 使用提供的變數(變數可以是連續的或分類的)顯示它們之間的關係。

繪製資料集中成對的關係。

seaborn 庫的 Pairplot 模組提供了一個高階介面,用於建立視覺上吸引人和教育性的統計視覺化。

匯入庫和資料

第一步是匯入我們將使用的庫。在本例中,我們的資料視覺化框架將是 Seaborn,我們將使用 pandas 程式語言匯入並儲存我們的資料。

import seaborn as sns
import pandas as pd

Seaborn Pairplot 函式的語法

seaborn.pairplot(
   data,
   hue = None,
   hue_order = None,
   palette = None,
   vars = None,
   x_vars = None,
   y_vars = None,
   kind = 'scatter',
   diag_kind = 'auto',
   markers = None,
   height = 2.5,
   aspect = 1,
   corner = False,
   dropna = False,
   plot_kws = None,
   diag_kws = None,
   grid_kws = None,
   size = None
)

Pairplot 函式的引數

  • data − 根據將顯示的視覺化,data 引數接受資料。DataFrame、陣列或陣列列表可以表示值。

  • hue_order, order − hue order 或 order 引數確定繪圖中使用的分類變數的順序。字串列表可以作為此引數的值使用。

  • scale − scale 選項使用比例縮放繪圖。此屬性的有用值為 area、count 和 width。

  • scale_hue − scale hue 選項接受一個布林值,以指定比例是否在繪圖上的所有小提琴中近似(對於 FALSE)或在主要分組變數的每個級別內(對於 TRUE)。

  • gridsize − gridsize 引數使用整數計算繪圖的核密度。

  • inner − inner 選項允許使用者指定小提琴圖的內部點。此引數的選項為 box、point、quartile、stick 或 None。

  • orient − 使用者可以使用 orient 選項選擇繪圖的方向。垂直或水平方向分別用字母“v”和“h”表示。

  • linewidth − linewidth 引數透過取浮點整數作為其值來確定繪圖中使用的灰色線的寬度。

  • color − 使用者可以使用 color 引數設定每個繪圖資料項的顏色範圍。此引數的值可以是 matplotlib 顏色。

  • palette − palette 引數用於指定將用於繪圖每個級別的各種顏色陰影。

  • axe − axe 選項指定將構建繪圖的軸。此引數的值可以是 matplotlib Axes。

示例 1

# importing the required libraries  
import seaborn as sbn  
import matplotlib.pyplot as plt  
# loading the dataset using the seaborn library  
mydata = sbn.load_dataset('penguins')  
# pairplot with the hue = gender parameter  
sbn.pairplot(mydata, hue = 'gender')  
# displaying the plot  
plt.show()  

輸出

程式碼說明

在上面的示例中,我們匯入了必要的庫並使用了 Seaborn load dataset() 方法載入企鵝資料集以進行處理。然後使用 pairplot() 方法顯示繪圖,並將 hue 引數設定為“gender”值。最後,我們使用 Matplotlib show() 方法向檢視者顯示了繪圖。因此成功建立了配對圖。

示例 2

# importing the required libraries  
import seaborn as sbn  
import matplotlib.pyplot as plt  
# loading the dataset using the seaborn library  
mydata = sbn.load_dataset('tips')  
# pairplot with the kind = kde parameter  
sbn.pairplot(mydata, kind = 'kde')  
# displaying the plot  
plt.show()  

輸出

程式碼說明

在上面的示例中,我們匯入了必要的庫並使用了 Seaborn load dataset() 方法載入企鵝資料集以進行處理。然後使用 pairplot() 方法顯示繪圖,並將 hue 引數設定為“gender”值。最後,我們使用 Matplotlib show() 方法向檢視者顯示了繪圖。因此成功建立了配對圖。

結論

Seaborn Pairplot 是一個用於資料視覺化的出色工具,有助於我們熟悉我們的資料。在一個圖形上,我們可以繪製大量資料,以便我們可以理解它並獲得新的想法。一個肯定要包含在您的資料科學工具箱中的繪圖。pair plot 是一個強大的工具,可以快速檢查資料集中的分佈和關係。透過 Pair Grid 類,Seaborn 提供了一種簡單易用的預設方法來建立 pair plot,這些 plot 可以修改和擴充套件。資料分析專案中的很大一部分價值通常來自資料的簡單顯示,而不是花哨的機器學習。pair plot 是進行資料分析時一個極好的起點,因為它為我們提供了對資料的全面初始檢視。

更新於: 2023年5月5日

528 次檢視

開啟您的職業生涯

透過完成課程獲得認證

開始
廣告