使用 Python 將 PDF 轉換為 CSV


Python 以其龐大的軟體包庫而聞名。藉助這些庫,我們將瞭解如何將 PDF 檔案轉換為 CSV 檔案。CSV 檔案只不過是一組資料,以行和列的形式構成框架。Python 庫中提供了各種可將 PDF 轉換為 CSV 的軟體包,但我們將使用 **Tabula-py 模組**。tabula-py 的主要部分是用 Java 編寫的,它首先讀取 PDF 文件並將 Python DataFrame 轉換為 JSON 物件。

為了使用 tabula-py,我們必須在系統中預先安裝 Java。要將 PDF 檔案轉換為 CSV,我們將按照以下步驟操作:

  • 首先,透過在命令列中鍵入 **pip install tabula-py** 來安裝所需的軟體包。

  • 現在,使用 **read_pdf("檔案位置", pages=數字)** 函式讀取檔案。這將返回 DataFrame。

  • 使用 **tabula.convert_into(‘pdf-檔名’, ‘檔名稱.csv’,output_format= "csv", pages= "all")** 將 DataFrame 轉換為 Excel 檔案。它通常將 pdf 檔案匯出到 excel 檔案中。

示例

在這個示例中,我們使用了 **IPL 比賽日程文件** 並將其轉換為 Excel 檔案。

# Import the required Module
import tabula
# Read a PDF File
df = tabula.read_pdf("IPLmatch.pdf", pages='all')[0]
# convert PDF into CSV
tabula.convert_into("IPLmatch.pdf", "iplmatch.csv", output_format="csv", pages='all')
print(df)

輸出

執行上述程式碼將把 PDF 檔案轉換為 Excel (CSV) 檔案。

更新於: 2021年4月21日

16K+ 瀏覽量

啟動您的 職業生涯

透過完成課程獲得認證

開始學習
廣告