Scrapy - 網路蒐集的資料



描述

儲存網路蒐集資料的最佳方式是使用訪問匯出,它確保資料使用多種序列化格式正確地儲存。JSON、JSON 序列、CSV、XML 是序列化格式中現成支援的格式。可以使用以下命令來儲存資料 -

scrapy crawl dmoz -o data.json

此命令會建立一個 JSON 檔案 **data.json**,其中包含網路蒐集的 JSON 資料。此技術適用於少量資料。如果需要處理大量資料,可以使用專案管道。類似 data.json 檔案,專案建立後將在 **tutorial/pipelines.py** 中設定一個保留檔案。

廣告