Scrapy - 專案



描述

Scrapy 過程可用於使用爬蟲從網頁等來源提取資料。Scrapy 使用Item 類生成輸出,其物件用於收集抓取的資料。

宣告專案

您可以使用類定義語法以及如下所示的欄位物件來宣告專案:

import scrapy 
class MyProducts(scrapy.Item): 
   productName = Field() 
   productLink = Field() 
   imageURL = Field() 
   price = Field() 
   size = Field() 

專案欄位

專案欄位用於顯示每個欄位的元資料。由於欄位物件上的值沒有限制,因此可訪問的元資料鍵不包含元資料參考列表。欄位物件用於指定所有欄位元資料,並且您可以根據專案的要求指定任何其他欄位鍵。欄位物件可以透過 Item.fields 屬性訪問。

使用專案

在使用專案時,可以定義一些常用函式。有關更多資訊,請點選此 連結

擴充套件專案

可以透過宣告原始專案的子類來擴充套件專案。例如:

class MyProductDetails(Product): 
   original_rate = scrapy.Field(serializer = str) 
   discount_rate = scrapy.Field()

您可以使用現有的欄位元資料透過新增更多值或更改現有值來擴充套件欄位元資料,如下面的程式碼所示:

class MyProductPackage(Product): 
   name = scrapy.Field(Product.fields['name'], serializer = serializer_demo)

專案物件

專案物件可以使用以下類指定,該類根據給定引數提供新的初始化專案:

class scrapy.item.Item([arg])

Item 提供了建構函式的副本,並提供了一個額外的屬性,該屬性由欄位中的專案給出。

欄位物件

欄位物件可以使用以下類指定,其中 Field 類不發出其他過程或屬性:

class scrapy.item.Field([arg])
廣告