- Scrapy 教程
- Scrapy - 首頁
- Scrapy 基本概念
- Scrapy - 概述
- Scrapy - 環境配置
- Scrapy - 命令列工具
- Scrapy - 爬蟲 (Spiders)
- Scrapy - 選擇器 (Selectors)
- Scrapy - 專案 (Items)
- Scrapy - 專案載入器 (Item Loaders)
- Scrapy - Shell
- Scrapy - 專案管道 (Item Pipeline)
- Scrapy - 資料匯出 (Feed exports)
- Scrapy - 請求 & 響應
- Scrapy - 連結提取器 (Link Extractors)
- Scrapy - 設定
- Scrapy - 異常處理
- Scrapy 實戰專案
- Scrapy - 建立專案
- Scrapy - 定義專案
- Scrapy - 第一個爬蟲
- Scrapy - 爬取資料
- Scrapy - 提取專案資料
- Scrapy - 使用專案資料
- Scrapy - 跟蹤連結
- Scrapy - 爬取的資料
- Scrapy 有用資源
- Scrapy - 快速指南
- Scrapy - 有用資源
- Scrapy - 討論
Scrapy - 概述
Scrapy是一個快速、開源的Python編寫的網頁爬取框架,它利用基於XPath的選擇器從網頁中提取資料。
Scrapy首次釋出於2008年6月26日,採用BSD許可證,1.0里程碑版本於2015年6月釋出。
為什麼使用Scrapy?
更容易構建和擴充套件大型爬取專案。
它有一個內建的機制叫做選擇器(Selectors),用於從網站提取資料。
它非同步處理請求,速度很快。
它使用自動限速機制自動調整爬取速度。
確保開發者易用性。
Scrapy 的特性
Scrapy是一個開源且免費使用的網頁爬取框架。
Scrapy生成JSON、CSV和XML等格式的匯出資料。
Scrapy內建支援使用XPath或CSS表示式選擇和提取資料。
基於爬蟲的Scrapy允許自動從網頁提取資料。
優勢
Scrapy易於擴充套件,快速且強大。
它是一個跨平臺的應用程式框架(Windows、Linux、Mac OS和BSD)。
Scrapy的請求是非同步排程和處理的。
Scrapy自帶一個名為Scrapyd的內建服務,允許使用JSON Web服務上傳專案和控制爬蟲。
即使網站沒有提供原始資料的API,也可以抓取任何網站。
劣勢
Scrapy僅支援Python 2.7+。
不同作業系統的安裝方式不同。
廣告