
- Python Pandas 教程
- Python Pandas - 首頁
- Python Pandas - 簡介
- Python Pandas - 環境設定
- Python Pandas - 基礎
- Python Pandas - 資料結構介紹
- Python Pandas - 索引物件
- Python Pandas - Panel
- Python Pandas - 基本功能
- Python Pandas - 索引和資料選擇
- Python Pandas - Series
- Python Pandas - Series
- Python Pandas - Series 物件切片
- Python Pandas - Series 物件的屬性
- Python Pandas - Series 物件的算術運算
- Python Pandas - 將 Series 轉換為其他物件
- Python Pandas - DataFrame
- Python Pandas - DataFrame
- Python Pandas - 訪問 DataFrame
- Python Pandas - DataFrame 物件切片
- Python Pandas - 修改 DataFrame
- Python Pandas - 從 DataFrame 中刪除行
- Python Pandas - DataFrame 的算術運算
- Python Pandas - I/O 工具
- Python Pandas - I/O 工具
- Python Pandas - 使用 CSV 格式
- Python Pandas - 讀取和寫入 JSON 檔案
- Python Pandas - 從 Excel 檔案讀取資料
- Python Pandas - 將資料寫入 Excel 檔案
- Python Pandas - 使用 HTML 資料
- Python Pandas - 剪貼簿
- Python Pandas - 使用 HDF5 格式
- Python Pandas - 與 SQL 的比較
- Python Pandas - 資料處理
- Python Pandas - 排序
- Python Pandas - 重新索引
- Python Pandas - 迭代
- Python Pandas - 連線
- Python Pandas - 統計函式
- Python Pandas - 描述性統計
- Python Pandas - 使用文字資料
- Python Pandas - 函式應用
- Python Pandas - 選項和自定義
- Python Pandas - 視窗函式
- Python Pandas - 聚合
- Python Pandas - 合併/連線
- Python Pandas - 多級索引
- Python Pandas - 多級索引基礎
- Python Pandas - 使用多級索引進行索引
- Python Pandas - 使用多級索引進行高階重新索引
- Python Pandas - 重新命名多級索引標籤
- Python Pandas - 對多級索引進行排序
- Python Pandas - 二元運算
- Python Pandas - 二元比較運算
- Python Pandas - 布林索引
- Python Pandas - 布林掩碼
- Python Pandas - 資料重塑和透視
- Python Pandas - 透視表
- Python Pandas - 堆疊和取消堆疊
- Python Pandas - 熔化
- Python Pandas - 計算虛擬變數
- Python Pandas - 分類資料
- Python Pandas - 分類資料
- Python Pandas - 分類資料的排序和排列
- Python Pandas - 比較分類資料
- Python Pandas - 處理缺失資料
- Python Pandas - 缺失資料
- Python Pandas - 填充缺失資料
- Python Pandas - 缺失值的插值
- Python Pandas - 刪除缺失資料
- Python Pandas - 使用缺失資料進行計算
- Python Pandas - 處理重複項
- Python Pandas - 重複資料
- Python Pandas - 計數和檢索唯一元素
- Python Pandas - 重複標籤
- Python Pandas - 分組和聚合
- Python Pandas - GroupBy
- Python Pandas - 時間序列資料
- Python Pandas - 日期功能
- Python Pandas - Timedelta
- Python Pandas - 稀疏資料結構
- Python Pandas - 稀疏資料
- Python Pandas - 視覺化
- Python Pandas - 視覺化
- Python Pandas - 其他概念
- Python Pandas - 警告和陷阱
- Python Pandas 有用資源
- Python Pandas - 快速指南
- Python Pandas - 有用資源
- Python Pandas - 討論
Python Pandas - 描述性統計
描述性統計是資料分析中必不可少的工具,它提供了一種總結和理解資料的方法。在 Python 的 Pandas 庫中,有許多方法可用於計算 Series 和 DataFrame 物件的描述性統計。
這些方法提供了各種聚合函式,如 sum()、mean() 和 quantile(),以及諸如 cumsum() 和 cumprod() 等運算,它們返回相同大小的物件。
在本教程中,我們將討論 Pandas 中一些最常用的描述性統計函式,這些函式應用於 Series 和 DataFrame 物件。根據其功能,這些方法可以分為不同的類別,例如聚合函式、累積函式等等。
聚合函式
聚合函式從一系列資料中生成單個值,從而對資料集進行簡潔的總結。以下是一些主要的聚合函式:
序號 | 方法和描述 |
---|---|
1 |
mean() 返回沿請求軸的值的平均值。 |
2 |
sum() 返回沿請求軸的值的總和。 |
3 |
median() 返回值的算術中位數。 |
4 |
min() 返回沿請求軸的值的最小值。 |
5 |
max() 返回沿請求軸的值的最大值。 |
6 |
count() 返回給定物件中非 NA/空觀察值的個數。 |
7 |
quantile() 返回給定分位數的值。 |
8 |
mode() 返回沿所選軸/Series 的每個元素的眾數。 |
9 |
var() 返回沿請求軸的無偏方差。 |
10 |
kurt() 返回沿請求軸的無偏峰度。 |
11 |
skew() 返回沿請求軸的無偏偏度。 |
12 |
sem() 返回沿請求軸的無偏偏度。 |
13 |
corr() 計算與其他物件的關聯,排除缺失值。 |
14 |
cov() 計算兩個物件之間的協方差,排除 NA/空值。 |
15 |
autocorr() 計算滯後 N 自相關。 |
累積函式
累積函式提供執行總計或乘積,並保持與輸入資料相同的形狀。這些在時間序列分析或理解趨勢方面非常有用:
序號 | 方法和描述 |
---|---|
1 |
cumsum() 返回 DataFrame 或 Series 軸上的累積和。 |
2 |
cumprod() 返回 DataFrame 或 Series 軸上的累積積。 |
3 |
cummax() 返回 DataFrame 或 Series 軸上的累積最大值。 |
4 |
cummin() 返回 DataFrame 或 Series 軸上的累積最小值。 |
布林函式
布林函式根據 Series 中的邏輯運算返回布林值:
序號 | 方法和描述 |
---|---|
1 |
all() 如果所有元素都為 True,則返回 True,可能沿某個軸。 |
2 |
any() 如果任何元素都為 True,則返回 True,可能沿某個軸。 |
3 |
between() 如果元素在左邊界和右邊界之間,則為每個元素返回 True。 |
變換函式
變換函式對 Series 中的每個元素應用數學運算,返回轉換後的 Series:
序號 | 方法和描述 |
---|---|
1 |
diff() 計算物件中元素之間的差值,在指定數量的週期內。 |
2 |
pct_change() 計算當前元素和先前元素之間的百分比變化。 |
3 |
rank() 計算給定物件中值的秩。 |
索引相關函式
這些函式與 Series 索引相關,並提供操縱和分析索引標籤的方法:
序號 | 方法和描述 |
---|---|
1 |
idxmax() 返回最大值第一次出現的索引。 |
2 |
idxmin() 返回最小值第一次出現的索引。 |
3 |
value_counts() 返回一個 Series,其中包含唯一值的計數。 |
4 |
unique() 返回 Series 元素中唯一值的陣列。 |
統計函式
這些函式提供 Series 資料的各種統計指標:
序號 | 方法和描述 |
---|---|
1 |
nunique() 返回給定物件中唯一值的個數。 |
2 |
std() 返回 Series 值的標準差。 |
3 |
abs() 返回一個 Series/DataFrame,其中包含每個元素的絕對數值。 |
4 |
clip() 在輸入閾值處修剪值,將超出邊界的返回值設定為邊界值。 |
5 |
round() 將給定物件中的每個值四捨五入到指定的小數位數。 |
6 |
prod() 返回給定物件元素的乘積。 |
7 |
describe() 生成給定物件的描述性統計資訊。 |