Python資料科學 - Pandas



什麼是Pandas?

Pandas是一個開源的Python庫,用於透過其強大的資料結構進行高效能資料處理和資料分析。Python結合Pandas被廣泛應用於各種學術和商業領域,包括金融、經濟、統計、廣告、網路分析等等。使用Pandas,無論資料來源如何,我們都可以完成資料處理和分析的五個典型步驟——載入、組織、操作、建模和分析資料。

以下是Pandas的一些重要特性,這些特性專門用於資料處理和資料分析工作。

Pandas的關鍵特性

  • 具有預設和自定義索引的快速高效的DataFrame物件。
  • 用於將資料從不同檔案格式載入到記憶體中資料物件的工具。
  • 資料對齊和缺失資料的整合處理。
  • 資料集的重塑和透視。
  • 基於標籤的大型資料集的切片、索引和子集選擇。
  • 可以刪除或插入資料結構中的列。
  • 按組對資料進行聚合和轉換。
  • 高效能的資料合併和連線。
  • 時間序列功能。

Pandas處理以下三種資料結構:

  • Series(序列)
  • DataFrame(資料框)

這些資料結構構建在Numpy陣列之上,使其快速高效。

維度和描述

理解這些資料結構的最佳方法是,更高維的資料結構是其低維資料結構的容器。例如,DataFrame是Series的容器,Panel是DataFrame的容器。

資料結構 維度 描述
Series(序列) 1 一維帶標籤的同質陣列,大小不可變。
資料框 2 通用的二維帶標籤,大小可變的表格結構,可能包含異構型別的列。

DataFrame被廣泛使用,它是最重要的資料結構。

Series(序列)

Series是一種一維類似陣列的結構,包含同質資料。例如,以下序列是整數10、23、56……的集合。

10 23 56 17 52 61 73 90 26 72

Series的關鍵點

  • 同質資料
  • 大小不可變
  • 資料值可變

DataFrame(資料框)

DataFrame是一個二維陣列,包含異構資料。例如:

姓名 年齡 性別 評分
史蒂夫 32 3.45
莉婭 28 4.6
45 3.9
凱蒂 38 2.78

該表顯示了一個組織銷售團隊的資料及其整體績效評分。資料以行和列表示。每列代表一個屬性,每行代表一個人。

列的資料型別

四列的資料型別如下:

型別
姓名字串
年齡整數
性別字串
評分浮點數

DataFrame的關鍵點

  • 異構資料
  • 大小可變
  • 資料可變

我們將在接下來的章節中看到許多關於在資料科學工作中使用Python的pandas庫的例子。

廣告
© . All rights reserved.