探索分類資料
簡介
分類資料是一種取固定數量的值的資料型別,並且這些變數之間不存在邏輯順序。分類變數可以是血型、是非情況、性別、排名(例如,第一、第二、第三)等。分類變數大多數情況下會進行編碼,例如獨熱編碼和名義編碼,以便以二進位制或整數格式表示它們,以滿足所考慮的機器學習用例。
分類資料和相關術語
眾數是與分類變數/觀測值相關的最常見的集中趨勢。它是觀測值集中出現頻率最高的那個值。
例如,
在以下資料集 [1,2,6,7,7,7,2,6,6,6,6] 中,眾數是 6,因為它出現了 5 次,是所有其他變數中出現次數最多的。
分類資料分析
使用條形圖 − 條形圖可以用來顯示每個分類變數的頻率。
以下程式碼繪製了五個學生的條形圖或頻率分佈圖以及他們在測試中獲得的分數。條形圖是使用 matplotlib 庫繪製的。
import pandas as pd import numpy as np import matplotlib.pyplot as plt %matplotlib inline students = ['Saurav','Mohit','Rajan','Aditi','Sonal'] marks = [78,98,65,90,80] plt.bar(students, marks) plt.xlabel('Student', fontsize = 10) plt.ylabel('Marks', fontsize = 10) plt.title('Student marks distribution')
輸出
餅圖 − 餅圖用於以圓形角度的形式顯示資料或分類變數佔整體的百分比。
以下程式碼繪製了五個學生的餅圖以及他們在測試中獲得的分數。餅圖也是使用 matplotlib 庫繪製的。
import pandas as pd import numpy as np import matplotlib.pyplot as plt %matplotlib inline students = ['Saurav','Mohit','Rajan','Aditi','Sonal'] marks = [78,98,65,90,80] plt.figure(figsize =(5, 5)) plt.pie(marks, labels = students, startangle = 90, autopct ='%.2f %%') plt.show()
輸出
箱線圖 − 它用於顯示資料的分佈並比較不同組之間的資料。
以下程式碼繪製了五個學生的箱線圖以及他們在測試中獲得的分數。Matplotlob 用於繪製圖形。
import seaborn as sns import matplotlib.pyplot as plt %matplotlib inline data = pd.read_csv("/content/train.csv") sns.boxplot(data = data, x='Street', y='SalePrice')
輸出
小提琴圖 − – 它用於視覺化分類資料的分佈並定義核密度圖。
以下程式碼繪製了五個學生的提琴圖以及他們在測試中獲得的分數。
import seaborn as sns import matplotlib.pyplot as plt %matplotlib inline data = pd.read_csv("/content/train.csv") sns.violinplot(data = data, x='Street', y='SalePrice')
輸出
結論
分類資料可以用各種形式表示和探索。在處理分類資料時,條形圖、餅圖、箱線圖和小提琴圖往往非常有助於表示資料並從中獲得見解。
廣告