- Python資料科學教程
- Python資料科學 - 首頁
- Python資料科學 - 快速入門
- Python資料科學 - 環境設定
- Python資料科學 - Pandas
- Python資料科學 - Numpy
- Python資料科學 - SciPy
- Python資料科學 - Matplotlib
- Python資料處理
- Python資料操作
- Python資料清洗
- Python處理CSV資料
- Python處理JSON資料
- Python處理XLS資料
- Python關係資料庫
- Python NoSQL資料庫
- Python日期和時間
- Python資料整理
- Python資料聚合
- Python讀取HTML頁面
- Python處理非結構化資料
- Python詞法分析
- Python詞幹提取和詞形還原
- Python資料視覺化
- Python圖表屬性
- Python圖表樣式
- Python箱線圖
- Python熱力圖
- Python散點圖
- Python氣泡圖
- Python 3D圖表
- Python時間序列
- Python地理資料
- Python圖資料
Python資料科學 - Pandas
什麼是Pandas?
Pandas是一個開源的Python庫,用於透過其強大的資料結構進行高效能資料處理和資料分析。Python結合Pandas被廣泛應用於各種學術和商業領域,包括金融、經濟、統計、廣告、網路分析等等。使用Pandas,無論資料來源如何,我們都可以完成資料處理和分析的五個典型步驟——載入、組織、操作、建模和分析資料。
以下是Pandas的一些重要特性,這些特性專門用於資料處理和資料分析工作。
Pandas的關鍵特性
- 具有預設和自定義索引的快速高效的DataFrame物件。
- 用於將資料從不同檔案格式載入到記憶體中資料物件的工具。
- 資料對齊和缺失資料的整合處理。
- 資料集的重塑和透視。
- 基於標籤的大型資料集的切片、索引和子集選擇。
- 可以刪除或插入資料結構中的列。
- 按組對資料進行聚合和轉換。
- 高效能的資料合併和連線。
- 時間序列功能。
Pandas處理以下三種資料結構:
- Series(序列)
- DataFrame(資料框)
這些資料結構構建在Numpy陣列之上,使其快速高效。
維度和描述
理解這些資料結構的最佳方法是,更高維的資料結構是其低維資料結構的容器。例如,DataFrame是Series的容器,Panel是DataFrame的容器。
| 資料結構 | 維度 | 描述 |
|---|---|---|
| Series(序列) | 1 | 一維帶標籤的同質陣列,大小不可變。 |
| 資料框 | 2 | 通用的二維帶標籤,大小可變的表格結構,可能包含異構型別的列。 |
DataFrame被廣泛使用,它是最重要的資料結構。
Series(序列)
Series是一種一維類似陣列的結構,包含同質資料。例如,以下序列是整數10、23、56……的集合。
| 10 | 23 | 56 | 17 | 52 | 61 | 73 | 90 | 26 | 72 |
Series的關鍵點
- 同質資料
- 大小不可變
- 資料值可變
DataFrame(資料框)
DataFrame是一個二維陣列,包含異構資料。例如:
| 姓名 | 年齡 | 性別 | 評分 |
|---|---|---|---|
| 史蒂夫 | 32 | 男 | 3.45 |
| 莉婭 | 28 | 女 | 4.6 |
| 文 | 45 | 男 | 3.9 |
| 凱蒂 | 38 | 女 | 2.78 |
該表顯示了一個組織銷售團隊的資料及其整體績效評分。資料以行和列表示。每列代表一個屬性,每行代表一個人。
列的資料型別
四列的資料型別如下:
| 列 | 型別 |
|---|---|
| 姓名 | 字串 |
| 年齡 | 整數 |
| 性別 | 字串 |
| 評分 | 浮點數 |
DataFrame的關鍵點
- 異構資料
- 大小可變
- 資料可變
我們將在接下來的章節中看到許多關於在資料科學工作中使用Python的pandas庫的例子。
廣告