Scrapy 教程
Scrapy - 首頁

Scrapy - 概述

Scrapy是一個快速、開源的Python編寫的網頁爬取框架，它利用基於XPath的選擇器從網頁中提取資料。

Scrapy首次釋出於2008年6月26日，採用BSD許可證，1.0里程碑版本於2015年6月釋出。

為什麼使用Scrapy？

更容易構建和擴充套件大型爬取專案。
它有一個內建的機制叫做選擇器(Selectors)，用於從網站提取資料。
它非同步處理請求，速度很快。
它使用自動限速機制自動調整爬取速度。
確保開發者易用性。

Scrapy 的特性

Scrapy是一個開源且免費使用的網頁爬取框架。
Scrapy生成JSON、CSV和XML等格式的匯出資料。
Scrapy內建支援使用XPath或CSS表示式選擇和提取資料。
基於爬蟲的Scrapy允許自動從網頁提取資料。

優勢

Scrapy易於擴充套件，快速且強大。
它是一個跨平臺的應用程式框架（Windows、Linux、Mac OS和BSD）。
Scrapy的請求是非同步排程和處理的。
Scrapy自帶一個名為Scrapyd的內建服務，允許使用JSON Web服務上傳專案和控制爬蟲。
即使網站沒有提供原始資料的API，也可以抓取任何網站。

劣勢

Scrapy僅支援Python 2.7+。
不同作業系統的安裝方式不同。

列印頁面

廣告

© . All rights reserved.