Python Pandas - 描述性統計

描述性統計是資料分析中必不可少的工具，它提供了一種總結和理解資料的方法。在 Python 的 Pandas 庫中，有許多方法可用於計算 Series 和 DataFrame 物件的描述性統計。

這些方法提供了各種聚合函式，如 sum()、mean() 和 quantile()，以及諸如 cumsum() 和 cumprod() 等運算，它們返回相同大小的物件。

在本教程中，我們將討論 Pandas 中一些最常用的描述性統計函式，這些函式應用於 Series 和 DataFrame 物件。根據其功能，這些方法可以分為不同的類別，例如聚合函式、累積函式等等。

聚合函式

聚合函式從一系列資料中生成單個值，從而對資料集進行簡潔的總結。以下是一些主要的聚合函式：

累積函式提供執行總計或乘積，並保持與輸入資料相同的形狀。這些在時間序列分析或理解趨勢方面非常有用：

序號	方法和描述
1	cumsum() 返回 DataFrame 或 Series 軸上的累積和。
2	cumprod() 返回 DataFrame 或 Series 軸上的累積積。
3	cummax() 返回 DataFrame 或 Series 軸上的累積最大值。
4	cummin() 返回 DataFrame 或 Series 軸上的累積最小值。

布林函式根據 Series 中的邏輯運算返回布林值：

序號	方法和描述
1	all() 如果所有元素都為 True，則返回 True，可能沿某個軸。
2	any() 如果任何元素都為 True，則返回 True，可能沿某個軸。
3	between() 如果元素在左邊界和右邊界之間，則為每個元素返回 True。

序號

方法和描述

all()

如果所有元素都為 True，則返回 True，可能沿某個軸。

any()

如果任何元素都為 True，則返回 True，可能沿某個軸。

between()

如果元素在左邊界和右邊界之間，則為每個元素返回 True。

變換函式對 Series 中的每個元素應用數學運算，返回轉換後的 Series：

序號	方法和描述
1	diff() 計算物件中元素之間的差值，在指定數量的週期內。
2	pct_change() 計算當前元素和先前元素之間的百分比變化。
3	rank() 計算給定物件中值的秩。

序號

方法和描述

diff()

計算物件中元素之間的差值，在指定數量的週期內。

pct_change()

計算當前元素和先前元素之間的百分比變化。

rank()

計算給定物件中值的秩。

這些函式與 Series 索引相關，並提供操縱和分析索引標籤的方法：

序號	方法和描述
1	idxmax() 返回最大值第一次出現的索引。
2	idxmin() 返回最小值第一次出現的索引。
3	value_counts() 返回一個 Series，其中包含唯一值的計數。
4	unique() 返回 Series 元素中唯一值的陣列。

這些函式提供 Series 資料的各種統計指標：

序號	方法和描述
1	nunique() 返回給定物件中唯一值的個數。
2	std() 返回 Series 值的標準差。
3	abs() 返回一個 Series/DataFrame，其中包含每個元素的絕對數值。
4	clip() 在輸入閾值處修剪值，將超出邊界的返回值設定為邊界值。
5	round() 將給定物件中的每個值四捨五入到指定的小數位數。
6	prod() 返回給定物件元素的乘積。
7	describe() 生成給定物件的描述性統計資訊。

列印頁面