將Excel電子表格載入為pandas DataFrame
隨著資料分析在各個領域的重要性日益提高,Python憑藉其大量用於處理資料的庫,已成為首選語言。Pandas就是這樣一款強大的工具,它提供了靈活的資料結構,用於資料處理和分析。本文提供了將Excel電子表格載入為Pandas DataFrame的深入指南,幷包含示例。
Pandas簡介
Pandas是一個Python包,以其高效處理資料的能力而著稱。它提供了兩個類——DataFrame和Series——它們非常靈活,可以處理各種資料型別。DataFrame類似於Excel電子表格、SQL表或R中的data.frame。它是一個二維帶標籤的資料結構,其列可以是不同型別(如數值型、布林型、字串型等)。
在Pandas中載入Excel檔案
Pandas提供read_excel()函式來讀取Excel檔案並將資料載入到DataFrame中。該函式支援本地檔案系統或URL中的xls和xlsx副檔名,並且需要xlrd和openpyxl包才能執行。讓我們深入研究一些示例。
示例1:載入Excel檔案
最基本的形式是,可以使用read_excel()讀取Excel檔案並將其載入到DataFrame中。您只需要指定檔案的路徑。
import pandas as pd # Load spreadsheet df = pd.read_excel('path_to_file.xlsx') # Print the dataframe print(df)
在這個示例中,DataFrame df包含Excel電子表格中的所有資料。如果檔案包含多個工作表,此方法只會載入第一個工作表。
示例2:載入特定工作表
Excel檔案通常包含多個工作表。如果要從Excel檔案載入特定工作表,可以透過指定工作表的名稱或索引來實現。
import pandas as pd # Load a specific sheet df = pd.read_excel('path_to_file.xlsx', sheet_name='Sheet2') # Print the dataframe print(df)
在這種情況下,read_excel()函式載入名為“Sheet2”的工作表。或者,您可以指定工作表的索引,第一個工作表的索引為0。
示例3:載入多個工作表
如果要從Excel檔案載入多個工作表,可以將工作表名稱或索引列表傳遞給sheet_name引數。
import pandas as pd # Load multiple sheets sheets_dict = pd.read_excel('path_to_file.xlsx', sheet_name=['Sheet1', 'Sheet2']) # sheets_dict is a dictionary of dataframes # Access the dataframe from 'Sheet1' df1 = sheets_dict['Sheet1'] # Access the dataframe from 'Sheet2' df2 = sheets_dict['Sheet2'] # Print the dataframes print(df1) print(df2)
使用列表讀取多個工作表時,read_excel()返回一個DataFrame字典。此字典的鍵是工作表名稱或索引,值是相應DataFrame。
結論
Pandas是一個很棒的工具,可以輕鬆處理資料。它將Excel電子表格載入到DataFrame中的能力,只是它在資料科學和分析領域成為如此寶貴資產的眾多原因之一。
無論您是處理單工作表Excel檔案、多工作表資料還是處理大型電子表格,Pandas都提供了一種高效的方式來載入和處理您的資料。更深入地瞭解這些過程,您可以更熟練地使用Python和Pandas進行資料處理。