Python Pandas 處理哪種資料?


如果使用機器學習或資料科學等技術,就需要處理資料。資料是這些技術的基石。在現實環境中,處理資料是一個非常困難的過程,因為現實世界中的資料很雜亂。

使用 Python Pandas 包的主要優勢在於,它具有許多處理資料的功能。眾所周知,即時資料可以是任何形式,可以是字元、整數、浮點數、分類資料等等。

Pandas 最適合處理或操作表格資料,因為它有一個 DataFrame 物件,該物件具有更多功能。DataFrame 是一種二維資料結構,用於儲存表格資料,這些資料可以是任何形式(整數、字元、浮點數、分類資料等等)。

示例

import pandas as pd
data = pd.read_csv('sales_data.csv')
data.dtypes

解釋

使用 import 關鍵字匯入了 Pandas 包,之後使用 read_csv 函式讀取 CSV 檔案。這裡的 sales_data.csv 檔案是我們的資料檔案,該檔案有 10 列,分別命名為客戶編號、客戶姓名、2016 年、2017 年、增長百分比、1 月份單位、月份、日期、年份、活躍。

每列都儲存著不同型別的資料。為了分別獲取每列的資料型別,這裡我們使用了 dtype 屬性。

輸出

Customer Number   float64
Customer Name     object
2016              object
2017              object
Percent Growth    object
Jan Units         object
Month              int64
Day                int64
Year               int64
Active            object
dtype: object

上面的輸出塊表示輸入資料集(sales_data.cvs)的列名和資料型別。有三列儲存整數,一列儲存浮點數,其餘六列儲存物件資料,也就是文字型別資料。

示例

df = pd.DataFrame({'datetime': [pd.Timestamp('20190210')],'boolean': True})

print(df)
print() # for providing space at output
print(df.dtypes)

解釋

上面的程式碼塊由兩種資料型別建立,分別是 DateTime 和布林資料型別。使用 pd.timestamp 建立了日期時間資料型別資料。

輸出

datetime boolean
0 2019-02-10     True

datetime   datetime64[ns]
boolean bool
dtype: object

上面的輸出塊中有兩個輸出。第一個表示 DataFrame 物件 df 中存在的資料,第二個表示 DataFrame 物件的每一列的資料型別。

透過這些例子,我們可以看到 Pandas 如何以及處理哪種型別的資料。

更新於: 2021 年 11 月 18 日

332 次檢視

開啟您的 職業生涯

透過完成課程獲得認證

開始學習
廣告