使用 Python 將 PDF 轉換為 CSV
Python 以其龐大的軟體包庫而聞名。藉助這些庫,我們將瞭解如何將 PDF 檔案轉換為 CSV 檔案。CSV 檔案只不過是一組資料,以行和列的形式構成框架。Python 庫中提供了各種可將 PDF 轉換為 CSV 的軟體包,但我們將使用 **Tabula-py 模組**。tabula-py 的主要部分是用 Java 編寫的,它首先讀取 PDF 文件並將 Python DataFrame 轉換為 JSON 物件。
為了使用 tabula-py,我們必須在系統中預先安裝 Java。要將 PDF 檔案轉換為 CSV,我們將按照以下步驟操作:
首先,透過在命令列中鍵入 **pip install tabula-py** 來安裝所需的軟體包。
現在,使用 **read_pdf("檔案位置", pages=數字)** 函式讀取檔案。這將返回 DataFrame。
使用 **tabula.convert_into(‘pdf-檔名’, ‘檔名稱.csv’,output_format= "csv", pages= "all")** 將 DataFrame 轉換為 Excel 檔案。它通常將 pdf 檔案匯出到 excel 檔案中。
示例
在這個示例中,我們使用了 **IPL 比賽日程文件** 並將其轉換為 Excel 檔案。
# Import the required Module import tabula # Read a PDF File df = tabula.read_pdf("IPLmatch.pdf", pages='all')[0] # convert PDF into CSV tabula.convert_into("IPLmatch.pdf", "iplmatch.csv", output_format="csv", pages='all') print(df)
輸出
執行上述程式碼將把 PDF 檔案轉換為 Excel (CSV) 檔案。
廣告