Scrapy - 其他設定



下表顯示了 Scrapy 的其他設定:

序號 設定 & 描述
1

AJAXCRAWL_ENABLED

用於啟用大型爬取。

預設值:False

2

AUTOTHROTTLE_DEBUG

啟用後,可以即時檢視節流引數如何調整,並在每個接收到的響應中顯示統計資訊。

預設值:False

3

AUTOTHROTTLE_ENABLED

用於啟用 AutoThrottle 擴充套件。

預設值:False

4

AUTOTHROTTLE_MAX_DELAY

用於在高延遲情況下設定下載的最大延遲。

預設值:60.0

5

AUTOTHROTTLE_START_DELAY

用於設定下載的初始延遲。

預設值:5.0

6

AUTOTHROTTLE_TARGET_CONCURRENCY

定義 Scrapy 並行傳送到遠端站點的平均請求數。

預設值:1.0

7

CLOSESPIDER_ERRORCOUNT

定義在關閉爬蟲之前應接收的錯誤總數。

預設值:0

8

CLOSESPIDER_ITEMCOUNT

定義在關閉爬蟲之前應獲取的項總數。

預設值:0

9

CLOSESPIDER_PAGECOUNT

定義在爬蟲關閉之前要爬取的最大響應數。

預設值:0

10

CLOSESPIDER_TIMEOUT

定義爬蟲關閉的時間量(以秒為單位)。

預設值:0

11

COMMANDS_MODULE

當您想在專案中新增自定義命令時使用。

預設值:''

12

COMPRESSION_ENABLED

指示壓縮中介軟體是否啟用。

預設值:True

13

COOKIES_DEBUG

如果設定為 true,則記錄請求中傳送和響應中接收的所有 Cookie。

預設值:False

14

COOKIES_ENABLED

指示 Cookie 中介軟體是否啟用併發送到 Web 伺服器。

預設值:True

15

FILES_EXPIRES

定義檔案過期的延遲。

預設值:90 天

16

FILES_RESULT_FIELD

當您想為處理後的檔案使用其他欄位名稱時設定。

17

FILES_STORE

透過將其設定為有效值來儲存下載的檔案。

18

FILES_STORE_S3_ACL

用於修改儲存在 Amazon S3 儲存桶中的檔案的 ACL 策略。

預設值:private

19

FILES_URLS_FIELD

當您想為檔案 URL 使用其他欄位名稱時設定。

20

HTTPCACHE_ALWAYS_STORE

如果啟用此設定,爬蟲將徹底快取頁面。

預設值:False

21

HTTPCACHE_DBM_MODULE

在 DBM 儲存後端中使用的資料庫模組。

預設值:'anydbm'

22

HTTPCACHE_DIR

用於啟用和儲存 HTTP 快取的目錄。

預設值:'httpcache'

23

HTTPCACHE_ENABLED

指示 HTTP 快取是否啟用。

預設值:False

24

HTTPCACHE_EXPIRATION_SECS

用於設定 HTTP 快取的過期時間。

預設值:0

25

HTTPCACHE_GZIP

如果此設定設定為 true,則所有快取資料都將使用 gzip 壓縮。

預設值:False

26

HTTPCACHE_IGNORE_HTTP_CODES

它指出不應將 HTTP 響應與 HTTP 程式碼一起快取。

預設值:[]

27

HTTPCACHE_IGNORE_MISSING

如果啟用此設定,則如果在快取中找不到請求,則將忽略該請求。

預設值:False

28

HTTPCACHE_IGNORE_RESPONSE_CACHE_CONTROLS

包含要忽略的快取控制的列表。

預設值:[]

29

HTTPCACHE_IGNORE_SCHEME

它指出不應將 HTTP 響應與 URI 方案一起快取。

預設值:['file']

30

HTTPCACHE_POLICY

定義實現快取策略的類。

預設值:'scrapy.extensions.httpcache.DummyPolicy'

31

HTTPCACHE_STORAGE

實現快取儲存的類。

預設值:'scrapy.extensions.httpcache.FilesystemCacheStorage'

32

HTTPERROR_ALLOWED_CODES

一個列表,其中所有響應都透過非 200 狀態程式碼傳遞。

預設值:[]

33

HTTPERROR_ALLOW_ALL

啟用此設定後,所有響應都將透過,無論其狀態程式碼如何。

預設值:False

34

HTTPPROXY_AUTH_ENCODING

用於在 HttpProxyMiddleware 上對代理進行身份驗證。

預設值:"latin-1"

35

IMAGES_EXPIRES

定義影像過期的延遲。

預設值:90 天

36

IMAGES_MIN_HEIGHT

用於使用最小尺寸丟棄太小的影像。

37

IMAGES_MIN_WIDTH

用於使用最小尺寸丟棄太小的影像。

38

IMAGES_RESULT_FIELD

當您想為處理後的影像使用其他欄位名稱時設定。

39

IMAGES_STORE

透過將其設定為有效值來儲存下載的影像。

40

IMAGES_STORE_S3_ACL

用於修改儲存在 Amazon S3 儲存桶中的影像的 ACL 策略。

預設值:private

41

IMAGES_THUMBS

設定為建立下載影像的縮圖。

42

IMAGES_URLS_FIELD

當您想為影像 URL 使用其他欄位名稱時設定。

43

MAIL_FROM

發件人使用此設定傳送電子郵件。

預設值:'scrapy@localhost'

44

MAIL_HOST

用於傳送電子郵件的 SMTP 主機。

預設值:'localhost'

45

MAIL_PASS

用於對 SMTP 進行身份驗證的密碼。

預設值:None

46

MAIL_PORT

用於傳送電子郵件的 SMTP 埠。

預設值:25

47

MAIL_SSL

用於使用 SSL 加密連線實現連線。

預設值:False

48

MAIL_TLS

啟用後,它強制使用 STARTTLS 建立連線。

預設值:False

49

MAIL_USER

定義用於對 SMTP 進行身份驗證的使用者。

預設值:None

50

METAREFRESH_ENABLED

指示元重新整理中介軟體是否啟用。

預設值:True

51

METAREFRESH_MAXDELAY

元重新整理重定向的最大延遲。

預設值:100

52

REDIRECT_ENABLED

指示重定向中介軟體是否啟用。

預設值:True

53

REDIRECT_MAX_TIMES

定義請求重定向的最大次數。

預設值:20

54

REFERER_ENABLED

指示推薦來源中介軟體是否啟用。

預設值:True

55

RETRY_ENABLED

指示重試中介軟體是否啟用。

預設值:True

56

RETRY_HTTP_CODES

定義要重試的 HTTP 程式碼。

預設值:[500, 502, 503, 504, 408]

57

RETRY_TIMES

定義重試的最大次數。

預設值:2

58

TELNETCONSOLE_HOST

定義 Telnet 控制檯必須監聽的介面。

預設值:'127.0.0.1'

59

TELNETCONSOLE_PORT

定義用於 Telnet 控制檯的埠。

預設值:[6023, 6073]

scrapy_settings.htm
廣告

© . All rights reserved.