Python Pandas 快速指南

Python Pandas - 簡介

Pandas 是一個開源的 Python 庫，它使用強大的資料結構提供高效能的資料操作和分析工具。Pandas 的名稱來源於面板資料——計量經濟學中的多維資料。

2008 年，開發者 Wes McKinney 在需要一個高效能、靈活的工具來分析資料時開始開發 pandas。

在 Pandas 之前，Python 主要用於資料清洗和準備。它對資料分析的貢獻非常小。Pandas解決了這個問題。使用 Pandas，我們可以完成資料處理和分析中的五個典型步驟，無論資料來源如何——載入、準備、操作、建模和分析。

Python 與 Pandas 廣泛應用於包括金融、經濟學、統計學、分析學等在內的學術和商業領域。

Pandas 的關鍵特性

快速高效的 DataFrame 物件，具有預設和自定義索引。
用於將資料從不同檔案格式載入到記憶體中資料物件的工具。
資料對齊和缺失資料的整合處理。
資料集的重塑和透視。
基於標籤的大型資料集的切片、索引和子集選擇。
可以刪除或插入資料結構中的列。
對資料進行分組以進行聚合和轉換。
高效能的資料合併和連線。
時間序列功能。

Python Pandas - 環境設定

標準 Python 發行版不包含 Pandas 模組。一個輕量級的替代方案是使用流行的 Python 包安裝程式 **pip** 安裝 NumPy。

pip install pandas

如果您安裝 Anaconda Python 包，Pandas 將預設安裝如下：

Windows

**Anaconda** (來自 https://www.continuum.io) 是一個免費的 SciPy 棧 Python 發行版。它也適用於 Linux 和 Mac。
**Canopy** (https://www.enthought.com/products/canopy/) 提供免費和商業發行版，包含適用於 Windows、Linux 和 Mac 的完整 SciPy 棧。
**Python(x,y)** 是一個免費的 Python 發行版，包含 SciPy 棧和 Spyder IDE，適用於 Windows 作業系統。（可從 http://python-xy.github.io/ 下載）

Linux

各個 Linux 發行版的包管理器用於安裝 SciPy 棧中的一個或多個包。

對於 Ubuntu 使用者

sudo apt-get install python-numpy python-scipy python-matplotlibipythonipythonnotebook
python-pandas python-sympy python-nose

對於 Fedora 使用者

sudo yum install numpyscipy python-matplotlibipython python-pandas sympy
python-nose atlas-devel

資料結構介紹

Pandas 處理以下三種資料結構：

Series
DataFrame
Panel

這些資料結構構建在 Numpy 陣列之上，這意味著它們速度很快。

維度和描述

理解這些資料結構的最佳方法是，更高維的資料結構是其低維資料結構的容器。例如，DataFrame 是 Series 的容器，Panel 是 DataFrame 的容器。

資料結構	維度	描述
Series	1	一維帶標籤的同質陣列，大小不可變。
DataFrame	2	一般的二維帶標籤的、大小可變的表格結構，可能包含異構型別的列。
Panel	3	一般的三維帶標籤的、大小可變的陣列。

構建和處理兩個或多個維度的陣列是一項繁瑣的任務，使用者需要在編寫函式時考慮資料集的方向。但是使用 Pandas 資料結構，可以減少使用者的腦力負擔。

例如，對於表格資料 (DataFrame)，從語義上講，考慮 **索引**（行）和 **列** 比考慮軸 0 和軸 1更有幫助。

可變性

所有 Pandas 資料結構的值都是可變的（可以更改），除了 Series 之外，所有資料結構的大小都是可變的。Series 的大小是不可變的。

**注意** - DataFrame 廣泛使用，並且是最重要的資料結構之一。Panel 的使用要少得多。

Series

Series 是一種一維類似陣列的結構，包含同質資料。例如，以下 Series 是整數 10、23、56……的集合。

關鍵點

同質資料
大小不可變
資料值可變

DataFrame

DataFrame 是一個二維陣列，包含異構資料。例如：

姓名	年齡	性別	評分
Steve	32	男	3.45
Lia	28	女	4.6
Vin	45	男	3.9
Katie	38	女	2.78

該表顯示了一個組織銷售團隊的資料及其整體績效評分。資料以行和列表示。每一列代表一個屬性，每一行代表一個人。

列的資料型別

四列的資料型別如下：

列	型別
姓名	字串
年齡	整數
性別	字串
評分	浮點數

關鍵點

異構資料
大小可變
資料可變

Panel

Panel 是一種三維資料結構，包含異構資料。很難用圖形表示來表示 Panel。但是，Panel 可以被說明為 DataFrame 的容器。

關鍵點

異構資料
大小可變
資料可變

Python Pandas - Series

Series 是一種一維帶標籤的陣列，能夠儲存任何型別的資料（整數、字串、浮點數、Python 物件等）。軸標籤統稱為索引。

pandas.Series

可以使用以下建構函式建立 pandas Series：

pandas.Series( data, index, dtype, copy)

建構函式的引數如下：

序號	引數和描述
1	data data 可以採用各種形式，例如 ndarray、列表、常量
2	index 索引值必須唯一且可雜湊，與 data 長度相同。如果沒有傳遞索引，則預設為 np.arange(n)。
3	dtype dtype 用於資料型別。如果為 None，則將推斷資料型別
4	copy 複製資料。預設為 False

可以使用各種輸入建立 Series，例如：

陣列
字典
標量值或常量

建立空 Series

可以建立的基本 Series 是空 Series。

序號	引數和描述
1	data data採用多種形式，例如ndarray、series、map、列表、dict、常量以及另一個DataFrame。
2	index 對於行標籤，用於結果框架的索引是可選的，如果沒有傳遞索引，則預設為np.arange(n)。
3	列對於列標籤，可選的預設語法是- np.arange(n)。只有在沒有傳遞索引的情況下才為真。
4	dtype 每列的資料型別。
5	copy 此命令（或任何它是什麼）用於複製資料，如果預設值為False。

引數	描述
data	資料採用多種形式，例如ndarray、series、map、列表、dict、常量以及另一個DataFrame
items	axis=0
major_axis	axis=1
minor_axis	axis=2
dtype	每列的資料型別
copy	複製資料。預設值，false

序號	屬性或方法和描述
1	axes 返回行軸標籤的列表
2	dtype 返回物件的dtype。
3	empty 如果Series為空，則返回True。
4	ndim 返回底層資料的維度數，定義為1。
5	size 返回底層資料中的元素數。
6	values 將Series作為ndarray返回。
7	head() 返回前n行。
8	tail() 返回最後n行。

序號	屬性或方法和描述
1	T 轉置行和列。
2	axes 返回一個列表，其中僅包含行軸標籤和列軸標籤作為成員。
3	dtypes 返回此物件中的dtypes。
4	empty 如果NDFrame完全為空[沒有專案]；如果任何軸的長度為0，則為True。
5	ndim 軸/陣列維數。
6	shape 返回表示DataFrame維度的元組。
7	size NDFrame中的元素數。
8	values NDFrame的NumPy表示。
9	head() 返回前n行。
10	tail() 返回最後n行。

序號	函式	描述
1	count()	非空觀察值的個數
2	sum()	值的總和
3	mean()	值的平均值
4	median()	值的中位數
5	mode()	值的眾數
6	std()	值的標準差
7	min()	最小值
8	max()	最大值
9	abs()	絕對值
10	prod()	值的乘積
11	cumsum()	累積和
12	cumprod()	累積乘積

序號	函式與說明
1	lower() 將 Series/Index 中的字串轉換為小寫。
2	upper() 將 Series/Index 中的字串轉換為大寫。
3	len() 計算字串長度。
4	strip() 用於去除Series/索引中每個字串兩側的空格（包括換行符）。
5	split(' ') 使用給定的模式分割每個字串。
6	cat(sep=' ') 使用給定的分隔符連線Series/索引元素。
7	get_dummies() 返回包含獨熱編碼值的DataFrame。
8	contains(pattern) 如果元素包含子字串，則為每個元素返回布林值True，否則返回False。
9	replace(a,b) 將值a替換為值b。
10	repeat(value) 將每個元素重複指定次數。
11	count(pattern) 返回每個元素中模式出現的次數。
12	startswith(pattern) 如果Series/索引中的元素以該模式開頭，則返回True。
13	endswith(pattern) 如果Series/索引中的元素以該模式結尾，則返回True。
14	find(pattern) 返回模式第一次出現的第一個位置。
15	findall(pattern) 返回模式所有出現位置的列表。
16	swapcase 交換大小寫（小寫變大寫，大寫變小寫）。
17	islower() 檢查Series/索引中每個字串中的所有字元是否都小寫。返回布林值。
18	isupper() 檢查Series/索引中每個字串中的所有字元是否都大寫。返回布林值。
19	isnumeric() 檢查Series/索引中每個字串中的所有字元是否都是數字。返回布林值。

序號	引數和描述
1	display.max_rows 顯示要顯示的最大行數
2	2 display.max_columns 顯示要顯示的最大列數
3	display.expand_frame_repr 顯示DataFrames以擴充套件頁面
4	display.max_colwidth 顯示最大列寬
5	display.precision 顯示小數的精度

物件	索引器	返回型別
Series	s.loc[indexer]	標量值
DataFrame	df.loc[row_index,col_index]	Series物件
Panel	p.loc[item_index,major_index, minor_index]	p.loc[item_index,major_index, minor_index]

合併方法	SQL等效項	描述
left	LEFT OUTER JOIN	使用左物件的鍵
right	RIGHT OUTER JOIN	使用右物件的鍵
outer	FULL OUTER JOIN	使用鍵的並集
inner	INNER JOIN	使用鍵的交集

別名	描述	別名	描述
B	工作日頻率	BQS	工作季度開始頻率
D	日曆日頻率	A	年度(年)末頻率
W	每週頻率	BA	工作年度末頻率
M	月末頻率	BAS	工作年度開始頻率
SM	半月末頻率	BH	工作小時頻率
BM	工作月末頻率	H	每小時頻率
MS	月開始頻率	T, min	分鐘頻率
SMS	半月開始頻率	S	秒頻率
BMS	工作月開始頻率	L, ms	毫秒
Q	季度末頻率	U, us	微秒
BQ	工作季度末頻率	N	納秒
QS	季度開始頻率

Python Pandas 快速指南

Python Pandas - 簡介

Pandas 的關鍵特性

Python Pandas - 環境設定

Windows

Linux

資料結構介紹

維度和描述

可變性

Series

關鍵點

DataFrame

列的資料型別

關鍵點

Panel

關鍵點

Python Pandas - Series

pandas.Series

建立空 Series

示例

從 ndarray 建立 Series

示例 1

示例 2

從字典建立 Series

示例 1

示例 2

從標量建立 Series

使用位置從 Series 訪問資料

示例 1

示例 2

示例3

使用標籤（索引）檢索資料

示例 1

示例 2

示例3

Python Pandas - DataFrame

DataFrame的特徵

結構

pandas.DataFrame

建立DataFrame

建立空DataFrame

示例

從列表建立DataFrame

示例 1

示例 2

示例3

從ndarray/列表的字典建立DataFrame

示例 1

示例 2

從字典列表建立DataFrame

示例 1

示例 2

示例3

從Series的字典建立DataFrame

示例

列選擇

示例

列新增

示例

列刪除

示例

行選擇、新增和刪除

按標籤選擇

按整數位置選擇

切片行

新增行

刪除行

Python Pandas - Panel

pandas.Panel()

建立面板

從3D ndarray

從DataFrame物件的字典

建立空面板

從面板中選擇資料

使用Items

使用major_axis

使用minor_axis

Python Pandas - 基本功能

Series基本功能

示例