機器學習 - 散點矩陣圖



散點矩陣圖是一種圖形化地表示多個變數之間關係的方法。它是機器學習中一個用於視覺化資料集特徵之間相關性的有用工具。該圖也稱為對圖,用於識別資料集中兩個或多個變數之間的相關性。

散點矩陣圖顯示資料集中每一對特徵的散點圖。每個散點圖都代表兩個變數之間的關係。也可以在圖中新增一條對角線,顯示每個變數的分佈。

散點矩陣圖的Python實現

在這裡,我們將使用Python實現散點矩陣圖。在下面的示例中,我們將使用Sklearn的Iris資料集。

Iris資料集是機器學習中一個經典的資料集。它包含四個特徵:萼片長度、萼片寬度、花瓣長度和花瓣寬度。資料集有150個樣本,每個樣本都被標記為三個物種之一:Setosa、Versicolor或Virginica。

我們將使用Seaborn庫來實現散點矩陣圖。Seaborn是一個基於Matplotlib庫構建的Python資料視覺化庫。

示例

以下是實現散點矩陣圖的Python程式碼:

import seaborn as sns
import pandas as pd

# load iris dataset
iris = sns.load_dataset('iris')

# create scatter matrix plot
sns.pairplot(iris, hue='species')

# show plot
plt.show()

在這段程式碼中,我們首先匯入必要的庫Seaborn和Pandas。然後,我們使用sns.load_dataset()函式載入Iris資料集。此函式從Seaborn庫載入Iris資料集。

接下來,我們使用sns.pairplot()函式建立散點矩陣圖。hue引數用於指定資料集中的哪一列應用於顏色編碼。在本例中,我們使用species列根據每個樣本的物種對點進行顏色編碼。

最後,我們使用plt.show()函式顯示繪圖。

輸出

這段程式碼的輸出將是一個散點矩陣圖,顯示Iris資料集中每一對特徵的散點圖。

scatter matrix plot

請注意,每個散點圖都根據每個樣本的物種進行顏色編碼。

廣告