Scrapy - 概述



Scrapy是一個快速、開源的Python編寫的網頁爬取框架,它利用基於XPath的選擇器從網頁中提取資料。

Scrapy首次釋出於2008年6月26日,採用BSD許可證,1.0里程碑版本於2015年6月釋出。

為什麼使用Scrapy?

  • 更容易構建和擴充套件大型爬取專案。

  • 它有一個內建的機制叫做選擇器(Selectors),用於從網站提取資料。

  • 它非同步處理請求,速度很快。

  • 它使用自動限速機制自動調整爬取速度。

  • 確保開發者易用性。

Scrapy 的特性

  • Scrapy是一個開源且免費使用的網頁爬取框架。

  • Scrapy生成JSON、CSV和XML等格式的匯出資料。

  • Scrapy內建支援使用XPath或CSS表示式選擇和提取資料。

  • 基於爬蟲的Scrapy允許自動從網頁提取資料。

優勢

  • Scrapy易於擴充套件,快速且強大。

  • 它是一個跨平臺的應用程式框架(Windows、Linux、Mac OS和BSD)。

  • Scrapy的請求是非同步排程和處理的。

  • Scrapy自帶一個名為Scrapyd的內建服務,允許使用JSON Web服務上傳專案和控制爬蟲。

  • 即使網站沒有提供原始資料的API,也可以抓取任何網站。

劣勢

  • Scrapy僅支援Python 2.7+。

  • 不同作業系統的安裝方式不同。

廣告
© . All rights reserved.