Python Pandas - 描述性統計



描述性統計是資料分析中必不可少的工具,它提供了一種總結和理解資料的方法。在 Python 的 Pandas 庫中,有許多方法可用於計算 Series 和 DataFrame 物件的描述性統計。

這些方法提供了各種聚合函式,如 sum()、mean() 和 quantile(),以及諸如 cumsum() 和 cumprod() 等運算,它們返回相同大小的物件。

在本教程中,我們將討論 Pandas 中一些最常用的描述性統計函式,這些函式應用於 Series 和 DataFrame 物件。根據其功能,這些方法可以分為不同的類別,例如聚合函式、累積函式等等。

聚合函式

聚合函式從一系列資料中生成單個值,從而對資料集進行簡潔的總結。以下是一些主要的聚合函式:

序號 方法和描述
1

mean()

返回沿請求軸的值的平均值。

2

sum()

返回沿請求軸的值的總和。

3

median()

返回值的算術中位數。

4

min()

返回沿請求軸的值的最小值。

5

max()

返回沿請求軸的值的最大值。

6

count()

返回給定物件中非 NA/空觀察值的個數。

7

quantile()

返回給定分位數的值。

8

mode()

返回沿所選軸/Series 的每個元素的眾數。

9

var()

返回沿請求軸的無偏方差。

10

kurt()

返回沿請求軸的無偏峰度。

11

skew()

返回沿請求軸的無偏偏度。

12

sem()

返回沿請求軸的無偏偏度。

13

corr()

計算與其他物件的關聯,排除缺失值。

14

cov()

計算兩個物件之間的協方差,排除 NA/空值。

15

autocorr()

計算滯後 N 自相關。

累積函式

累積函式提供執行總計或乘積,並保持與輸入資料相同的形狀。這些在時間序列分析或理解趨勢方面非常有用:

序號 方法和描述
1

cumsum()

返回 DataFrame 或 Series 軸上的累積和。

2

cumprod()

返回 DataFrame 或 Series 軸上的累積積。

3

cummax()

返回 DataFrame 或 Series 軸上的累積最大值。

4

cummin()

返回 DataFrame 或 Series 軸上的累積最小值。

布林函式

布林函式根據 Series 中的邏輯運算返回布林值:

序號 方法和描述
1

all()

如果所有元素都為 True,則返回 True,可能沿某個軸。

2

any()

如果任何元素都為 True,則返回 True,可能沿某個軸。

3

between()

如果元素在左邊界和右邊界之間,則為每個元素返回 True。

變換函式

變換函式對 Series 中的每個元素應用數學運算,返回轉換後的 Series:

序號 方法和描述
1

diff()

計算物件中元素之間的差值,在指定數量的週期內。

2

pct_change()

計算當前元素和先前元素之間的百分比變化。

3

rank()

計算給定物件中值的秩。

索引相關函式

這些函式與 Series 索引相關,並提供操縱和分析索引標籤的方法:

序號 方法和描述
1

idxmax()

返回最大值第一次出現的索引。

2

idxmin()

返回最小值第一次出現的索引。

3

value_counts()

返回一個 Series,其中包含唯一值的計數。

4

unique()

返回 Series 元素中唯一值的陣列。

統計函式

這些函式提供 Series 資料的各種統計指標:

序號 方法和描述
1

nunique()

返回給定物件中唯一值的個數。

2

std()

返回 Series 值的標準差。

3

abs()

返回一個 Series/DataFrame,其中包含每個元素的絕對數值。

4

clip()

在輸入閾值處修剪值,將超出邊界的返回值設定為邊界值。

5

round()

將給定物件中的每個值四捨五入到指定的小數位數。

6

prod()

返回給定物件元素的乘積。

7

describe()

生成給定物件的描述性統計資訊。

廣告