Python Seaborn - 使用 Catplot 繪製帶狀圖

資料視覺化在理解和傳達資料中的模式、趨勢和見解方面發揮著至關重要的作用。Python 憑藉其豐富的庫生態系統，提供了建立視覺上吸引人且資訊豐富的繪圖的強大工具。Seaborn 是一個基於 Matplotlib 構建的流行資料視覺化庫，它提供了一個高階介面來建立美麗的統計圖形。

在本文中，我們將探討 Seaborn 的一種多功能繪圖型別——帶狀圖。帶狀圖可用於將連續變數相對於分類變數的分佈視覺化。它們沿著軸顯示單個數據點，從而可以輕鬆觀察模式、叢集和異常值。

瞭解帶狀圖

帶狀圖是一種分類圖，它根據資料點的值將其沿著軸分佈顯示。當可視化連續變數和分類變數之間的關係時，它們特別有用。帶狀圖提供了一種簡單而有效的方法來識別不同類別中的模式、變化和異常值。

要建立帶狀圖，我們將分類變量表示在 x 軸上，將連續變量表示在 y 軸上。然後，每個資料點都繪製為一個點或一條小垂直線，指示其在 y 軸上的位置。這種排列使我們能夠比較連續變數在不同類別中的分佈。

當處理相對較小的資料集時，帶狀圖特別有價值，因為它們提供了對單個數據點的詳細檢視。但是，對於較大的資料集，它們可能會變得擁擠且難以解釋，因此務必謹慎使用它們。

現在我們已經對帶狀圖有了基本的瞭解，讓我們繼續使用 Seaborn 的 Catplot 函式來高效地建立它們。

使用 Seaborn 的 Catplot 建立帶狀圖

Seaborn 是一個強大的 Python 資料視覺化庫，它提供各種繪圖函式，包括 Catplot 函式。Catplot 是一個多功能函式，可以建立各種型別的分類圖，包括帶狀圖。

要使用 Seaborn 的 Catplot 建立帶狀圖，我們首先需要匯入必要的庫並載入資料集。然後，我們可以使用 Catplot 函式並將 kind 引數指定為“strip”。此外，我們需要為 x 引數提供分類變數的名稱，為 y 引數提供連續變數的名稱。

例如，考慮一個包含學生在不同科目中成績資訊的資料集。我們可以建立一個帶狀圖來視覺化不同科目類別中成績的分佈。以下是實現該目標的程式碼片段：

import seaborn as sns
import matplotlib.pyplot as plt

# Load the dataset
# ...

# Create the strip plot
sns.catplot(x="subject", y="grade", kind="strip", data=df)

# Customize the plot
plt.title("Distribution of Grades across Subjects")
plt.xlabel("Subject")
plt.ylabel("Grade")

# Show the plot
plt.show()

在此示例中，我們匯入必要的庫，載入資料集 (df)，並使用 sns.catplot() 建立帶狀圖。然後，我們透過設定標題、x 軸標籤和 y 軸標籤來自定義繪圖。最後，我們使用 plt.show() 顯示繪圖。

透過使用 Seaborn 的 Catplot 函式和“strip” kind，我們可以輕鬆建立資訊豐富的帶狀圖，有效地說明資料在不同類別中的分佈。

自定義帶狀圖

Seaborn 的 Catplot 提供了多個選項來自定義帶狀圖，以增強其視覺外觀並有效地傳達資訊。讓我們探索一些常見的自定義技術：

調整點的大小和顏色

我們可以調整帶狀圖中點的大小和顏色，使其更突出或更具視覺吸引力。size 引數允許我們控制點的大小，而 color 引數允許我們更改其顏色。例如：

sns.catplot(x="subject", y="grade", kind="strip", data=df, size=6, color="steelblue")

在此示例中，size 引數設定為 6，使點更大，color 引數設定為“steelblue”，更改點顏色。

新增抖動

預設情況下，帶狀圖會將點放置在其確切的值上，這可能導致點重疊並難以辨別分佈。我們可以向點新增抖動，以在它們在分類軸上的位置引入隨機變化，從而減少重疊。要新增抖動，我們可以使用 jitter 引數：

sns.catplot(x="subject", y="grade", kind="strip", data=df, jitter=True)

在此示例中，jitter 引數設定為 True，啟用抖動效果。

使用 Hue 對資料進行分組

如果我們有另一個想要同時視覺化的分類變數，我們可以使用 hue 引數按該變數對資料進行分組。hue 變數的每個唯一值都將由不同的顏色或標記樣式表示。例如：

sns.catplot(x="subject", y="grade", hue="gender", kind="strip", data=df)

在此示例中，hue 引數設定為“gender”，使我們能夠比較不同性別在不同科目中的成績分佈。

在下一節中，我們將探討其他自定義選項，並討論使用 Seaborn 的 Catplot 處理帶狀圖的最佳實踐。

其他自定義和最佳實踐

除了上一節中討論的自定義選項之外，Seaborn 的 Catplot 還提供了其他一些功能和最佳實踐來增強帶狀圖。讓我們探索它們：

新增蜂群圖

蜂群圖是帶狀圖的替代方案，其中點沿著分類軸調整以避免重疊。這可以更清晰地表示資料分佈。要建立蜂群圖，我們可以將 kind 引數設定為“swarm”：

sns.catplot(x="subject", y="grade", kind="swarm", data=df)

當處理較大的資料集或資料點之間存在大量重疊時，使用蜂群圖尤其有用。

控制軸限制和標籤

我們可以自定義軸限制和標籤，以便為帶狀圖提供更好的上下文。Seaborn 的 Catplot 允許我們使用 xlim 和 ylim 引數修改軸限制。此外，我們可以使用 xlabel 和 ylabel 引數設定自定義軸標籤：

sns.catplot(x="subject", y="grade", kind="strip", data=df)
plt.xlim(0, 100)
plt.ylim(0, 10)
plt.xlabel("Subject")
plt.ylabel("Grade")

在此示例中，我們將 x 軸限制設定為 0 和 100，將 y 軸限制設定為 0 和 10。我們還將 x 軸標籤自定義為“Subject”，將 y 軸標籤自定義為“Grade”。

選擇合適的圖形大小

圖形大小在帶狀圖的視覺表示中起著至關重要的作用。選擇合適的圖形大小，使繪圖清晰可見且可解釋非常重要。我們可以使用 figsize 引數設定圖形大小：

sns.catplot(x="subject", y="grade", kind="strip", data=df, figsize=(8, 6))

在此示例中，figsize 引數設定為 (8, 6)，表示圖形的寬度為 8 英寸，高度為 6 英寸。

結論

在本教程中，我們探討了如何在 Python 中使用 Seaborn 的 Catplot 函式建立帶狀圖。帶狀圖是一種有用的視覺化工具，可以理解分類資料相對於連續變數的分佈。我們介紹了 Catplot 的基本用法，並討論了各種自定義選項，以增強帶狀圖的外觀和解釋。

Mrudgandha Kulkarni

更新於： 2023年8月11日

182 次瀏覽

開啟你的職業生涯

透過完成課程獲得認證

立即開始