Scrapy - 第一個爬蟲

描述

Spider 是一個類，它定義了從中提取資料的初始 URL、如何關注分頁連結以及如何提取和解析定義在items.py中的欄位。Scrapy 提供不同型別的蜘蛛，每種蜘蛛都有特定的目的。

在 first_scrapy/spiders 目錄下建立一個名為"first_spider.py"的檔案，在其中我們可以告訴 Scrapy 如何找到我們正在尋找的確切資料。為此，你必須定義一些屬性 -

名稱 - 它定義了蜘蛛的唯一名稱。
允許的域 - 它包含要供蜘蛛爬取的基本 URL。
起始 URL - 從其中蜘蛛開始爬取的 URL 列表。
parse() - 它是一種提取和解析爬取資料的提取方法。

以下程式碼展示了蜘蛛程式碼的樣子 -

import scrapy  

class firstSpider(scrapy.Spider): 
   name = "first" 
   allowed_domains = ["dmoz.org"] 
   
   start_urls = [ 
      "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/", 
      "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/" 
   ]  
   def parse(self, response): 
      filename = response.url.split("/")[-2] + '.html' 
      with open(filename, 'wb') as f: 
         f.write(response.body)

列印頁面

上一個

下一個