機器學習 - 百分位數



百分位數是機器學習中用於描述資料集分佈的統計概念。百分位數是一種度量,表示一組觀測值中低於給定百分比的觀測值的數值。

例如,第25個百分位數(也稱為第一四分位數)是資料集觀測值中低於25%的數值,而第75個百分位數(也稱為第三四分位數)是資料集觀測值中低於75%的數值。

百分位數可以用來總結資料集的分佈並識別異常值。在機器學習中,百分位數經常用於資料預處理和探索性資料分析以獲得對資料的洞察。

Python 提供了幾個用於計算百分位數的庫,包括 NumPy 和 Pandas。

使用 NumPy 計算百分位數

下面是一個使用 NumPy 計算百分位數的示例:

示例

import numpy as np

data = np.array([1, 2, 3, 4, 5])
p25 = np.percentile(data, 25)
p75 = np.percentile(data, 75)
print('25th percentile:', p25)
print('75th percentile:', p75)

在這個示例中,我們使用 NumPy 建立一個樣本資料集,然後使用np.percentile()函式計算第25個和第75個百分位數。

輸出

輸出顯示資料集的百分位數的值。

25th percentile: 2.0
75th percentile: 4.0

使用 Pandas 計算百分位數

下面是一個使用 Pandas 計算百分位數的示例:

示例

import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])
p25 = data.quantile(0.25)
p75 = data.quantile(0.75)

print('25th percentile:', p25)
print('75th percentile:', p75)

在這個示例中,我們建立一個 Pandas Series 物件,然後使用 Series 物件的quantile()方法計算第25個和第75個百分位數。

輸出

輸出顯示資料集的百分位數的值。

25th percentile: 2.0
75th percentile: 4.0
廣告