為什麼我們在Python中使用pandas?


Pandas一直是資料科學和機器學習中最常用的工具之一,用於資料清洗和分析。

在這裡,Pandas是處理這些現實世界中雜亂資料的最佳工具。Pandas是基於NumPy構建的開源Python包之一。

使用pandas處理資料非常快速有效,透過使用pandas Series和資料框,這兩種pandas資料結構將幫助您以各種方式操作資料。

基於pandas中可用的功能,可以說pandas最適合處理資料。它可以處理缺失資料、清理資料,並支援多種檔案格式。這意味著它可以讀取或載入許多格式的資料,例如CSV、Excel、SQL等。

讓我們來看一個例子,看看它如何讀取CSV資料。

示例

data = pd.read_csv('world-happiness-report.csv') 
print(data.shape) 
data.head()

解釋

在上面的程式碼中,變數data使用pandas包中提供的read_csv函式儲存CSV資料,這是一個世界幸福報告(從Kaggle資料集下載)。data.shape用於給出列和行數。

輸出

      Country name year  Life Ladder   Log GDP per capita Social support \
0   Afghanistan    2008    3.724               7.370           0.451
1   Afghanistan    2009    4.402               7.540           0.552
2   Afghanistan    2010    4.758               7.647           0.539
3   Afghanistan    2011    3.832               7.620           0.521
4   Afghanistan    2012    3.783               7.705           0.521

Healthy life expectancy at birth   Freedom to make life choices   Generosity \
                           50.80                          0.718       0.168
                           51.20                          0.679       0.190
                           51.60                          0.600       0.121
                           51.92                          0.496       0.162
                           52.24                          0.531       0.236

Perceptions of corruption   Positive affect   Negative affect
                   0.882             0.518             0.258
                   0.850             0.584             0.237
                   0.707             0.618             0.275
                   0.731             0.611             0.267
                   0.776             0.710             0.268

以上程式碼塊顯示了世界幸福報告資料集的前5行資料,可以使用pandas dataframe.head()函式顯示。

還有許多其他功能可以幫助我們處理用於機器學習資料科學操作的大型資料。這些功能包括合併和連線資料集、視覺化、分組、掩碼,並且對於對資料集執行數學運算也非常有幫助。

讓我們來看另一個例子,看看如何使用pandas建立輸出檔案。

示例

file = data.to_json('output_file.json')

解釋

Data.to_json是pandas函式,用於基於我們的pandas資料框物件(data)建立JSON檔案。

輸出

生成的JSON檔案將在我們的工作目錄中建立,副檔名為.json,檔名是output_file(對於我們的上述示例)。

這些是我們需要Python pandas的一些原因。

更新於:2021年11月18日

4K+ 次瀏覽

啟動您的職業生涯

透過完成課程獲得認證

開始
廣告