Python資料科學 - Pandas

什麼是Pandas？

Pandas是一個開源的Python庫，用於透過其強大的資料結構進行高效能資料處理和資料分析。Python結合Pandas被廣泛應用於各種學術和商業領域，包括金融、經濟、統計、廣告、網路分析等等。使用Pandas，無論資料來源如何，我們都可以完成資料處理和分析的五個典型步驟——載入、組織、操作、建模和分析資料。

以下是Pandas的一些重要特性，這些特性專門用於資料處理和資料分析工作。

Pandas的關鍵特性

具有預設和自定義索引的快速高效的DataFrame物件。
用於將資料從不同檔案格式載入到記憶體中資料物件的工具。
資料對齊和缺失資料的整合處理。
資料集的重塑和透視。
基於標籤的大型資料集的切片、索引和子集選擇。
可以刪除或插入資料結構中的列。
按組對資料進行聚合和轉換。
高效能的資料合併和連線。
時間序列功能。

Pandas處理以下三種資料結構：

Series（序列）
DataFrame（資料框）

這些資料結構構建在Numpy陣列之上，使其快速高效。

維度和描述

理解這些資料結構的最佳方法是，更高維的資料結構是其低維資料結構的容器。例如，DataFrame是Series的容器，Panel是DataFrame的容器。

資料結構	維度	描述
Series（序列）	1	一維帶標籤的同質陣列，大小不可變。
資料框	2	通用的二維帶標籤，大小可變的表格結構，可能包含異構型別的列。

DataFrame被廣泛使用，它是最重要的資料結構。

Series（序列）

Series是一種一維類似陣列的結構，包含同質資料。例如，以下序列是整數10、23、56……的集合。

Series的關鍵點

同質資料
大小不可變
資料值可變

DataFrame（資料框）

DataFrame是一個二維陣列，包含異構資料。例如：

姓名	年齡	性別	評分
史蒂夫	32	男	3.45
莉婭	28	女	4.6
文	45	男	3.9
凱蒂	38	女	2.78

該表顯示了一個組織銷售團隊的資料及其整體績效評分。資料以行和列表示。每列代表一個屬性，每行代表一個人。

列的資料型別

四列的資料型別如下：

列	型別
姓名	字串
年齡	整數
性別	字串
評分	浮點數

DataFrame的關鍵點

異構資料
大小可變
資料可變

我們將在接下來的章節中看到許多關於在資料科學工作中使用Python的pandas庫的例子。

列印頁面