- Scrapy 教程
- Scrapy - 主頁
- Scrapy 基本概念
- Scrapy - 概覽
- Scrapy - 環境
- Scrapy - 命令列工具
- Scrapy - 爬蟲
- Scrapy - 選擇器
- Scrapy - 專案
- Scrapy - 專案載入器
- Scrapy - Shell
- Scrapy - 專案管道
- Scrapy - Feed 匯出
- Scrapy - 請求和響應
- Scrapy - 連結提取器
- Scrapy - 設定
- Scrapy - 異常
- Scrapy 即時專案
- Scrapy - 建立專案
- Scrapy - 定義項
- Scrapy - 第一個爬蟲
- Scrapy - 爬取
- Scrapy - 提取專案
- Scrapy - 使用專案
- Scrapy - 關注連結
- Scrapy - 爬取資料
- Scrapy 有用資源
- Scrapy - 快速指南
- Scrapy - 有用資源
- Scrapy - 討論
Scrapy - 第一個爬蟲
描述
Spider 是一個類,它定義了從中提取資料的初始 URL、如何關注分頁連結以及如何提取和解析定義在items.py中的欄位。Scrapy 提供不同型別的蜘蛛,每種蜘蛛都有特定的目的。
在 first_scrapy/spiders 目錄下建立一個名為"first_spider.py"的檔案,在其中我們可以告訴 Scrapy 如何找到我們正在尋找的確切資料。為此,你必須定義一些屬性 -
名稱 - 它定義了蜘蛛的唯一名稱。
允許的域 - 它包含要供蜘蛛爬取的基本 URL。
起始 URL - 從其中蜘蛛開始爬取的 URL 列表。
parse() - 它是一種提取和解析爬取資料的提取方法。
以下程式碼展示了蜘蛛程式碼的樣子 -
import scrapy
class firstSpider(scrapy.Spider):
name = "first"
allowed_domains = ["dmoz.org"]
start_urls = [
"http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
"http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
]
def parse(self, response):
filename = response.url.split("/")[-2] + '.html'
with open(filename, 'wb') as f:
f.write(response.body)
廣告