- Scrapy 教程
- Scrapy - 首頁
- Scrapy 基本概念
- Scrapy - 概述
- Scrapy - 環境
- Scrapy - 命令列工具
- Scrapy - 爬蟲 (Spider)
- Scrapy - 選擇器
- Scrapy - 項 (Item)
- Scrapy - 項載入器 (Item Loader)
- Scrapy - Shell
- Scrapy - 項管道 (Item Pipeline)
- Scrapy - 資料匯出 (Feed)
- Scrapy - 請求 & 響應
- Scrapy - 連結提取器
- Scrapy - 設定
- Scrapy - 異常
- Scrapy 實戰專案
- Scrapy - 建立專案
- Scrapy - 定義項
- Scrapy - 第一個爬蟲
- Scrapy - 爬取
- Scrapy - 提取項
- Scrapy - 使用項
- Scrapy - 跟蹤連結
- Scrapy - 爬取資料
- Scrapy 有用資源
- Scrapy - 快速指南
- Scrapy - 有用資源
- Scrapy - 討論
Scrapy - 其他設定
下表顯示了 Scrapy 的其他設定:
| 序號 | 設定 & 描述 |
|---|---|
| 1 | AJAXCRAWL_ENABLED 用於啟用大型爬取。 預設值:False |
| 2 | AUTOTHROTTLE_DEBUG 啟用後,可以即時檢視節流引數如何調整,並在每個接收到的響應中顯示統計資訊。 預設值:False |
| 3 | AUTOTHROTTLE_ENABLED 用於啟用 AutoThrottle 擴充套件。 預設值:False |
| 4 | AUTOTHROTTLE_MAX_DELAY 用於在高延遲情況下設定下載的最大延遲。 預設值:60.0 |
| 5 | AUTOTHROTTLE_START_DELAY 用於設定下載的初始延遲。 預設值:5.0 |
| 6 | AUTOTHROTTLE_TARGET_CONCURRENCY 定義 Scrapy 並行傳送到遠端站點的平均請求數。 預設值:1.0 |
| 7 | CLOSESPIDER_ERRORCOUNT 定義在關閉爬蟲之前應接收的錯誤總數。 預設值:0 |
| 8 | CLOSESPIDER_ITEMCOUNT 定義在關閉爬蟲之前應獲取的項總數。 預設值:0 |
| 9 | CLOSESPIDER_PAGECOUNT 定義在爬蟲關閉之前要爬取的最大響應數。 預設值:0 |
| 10 | CLOSESPIDER_TIMEOUT 定義爬蟲關閉的時間量(以秒為單位)。 預設值:0 |
| 11 | COMMANDS_MODULE 當您想在專案中新增自定義命令時使用。 預設值:'' |
| 12 | COMPRESSION_ENABLED 指示壓縮中介軟體是否啟用。 預設值:True |
| 13 | COOKIES_DEBUG 如果設定為 true,則記錄請求中傳送和響應中接收的所有 Cookie。 預設值:False |
| 14 | COOKIES_ENABLED 指示 Cookie 中介軟體是否啟用併發送到 Web 伺服器。 預設值:True |
| 15 | FILES_EXPIRES 定義檔案過期的延遲。 預設值:90 天 |
| 16 | FILES_RESULT_FIELD 當您想為處理後的檔案使用其他欄位名稱時設定。 |
| 17 | FILES_STORE 透過將其設定為有效值來儲存下載的檔案。 |
| 18 | FILES_STORE_S3_ACL 用於修改儲存在 Amazon S3 儲存桶中的檔案的 ACL 策略。 預設值:private |
| 19 | FILES_URLS_FIELD 當您想為檔案 URL 使用其他欄位名稱時設定。 |
| 20 | HTTPCACHE_ALWAYS_STORE 如果啟用此設定,爬蟲將徹底快取頁面。 預設值:False |
| 21 | HTTPCACHE_DBM_MODULE 在 DBM 儲存後端中使用的資料庫模組。 預設值:'anydbm' |
| 22 | HTTPCACHE_DIR 用於啟用和儲存 HTTP 快取的目錄。 預設值:'httpcache' |
| 23 | HTTPCACHE_ENABLED 指示 HTTP 快取是否啟用。 預設值:False |
| 24 | HTTPCACHE_EXPIRATION_SECS 用於設定 HTTP 快取的過期時間。 預設值:0 |
| 25 | HTTPCACHE_GZIP 如果此設定設定為 true,則所有快取資料都將使用 gzip 壓縮。 預設值:False |
| 26 | HTTPCACHE_IGNORE_HTTP_CODES 它指出不應將 HTTP 響應與 HTTP 程式碼一起快取。 預設值:[] |
| 27 | HTTPCACHE_IGNORE_MISSING 如果啟用此設定,則如果在快取中找不到請求,則將忽略該請求。 預設值:False |
| 28 | HTTPCACHE_IGNORE_RESPONSE_CACHE_CONTROLS 包含要忽略的快取控制的列表。 預設值:[] |
| 29 | HTTPCACHE_IGNORE_SCHEME 它指出不應將 HTTP 響應與 URI 方案一起快取。 預設值:['file'] |
| 30 | HTTPCACHE_POLICY 定義實現快取策略的類。 預設值:'scrapy.extensions.httpcache.DummyPolicy' |
| 31 | HTTPCACHE_STORAGE 實現快取儲存的類。 預設值:'scrapy.extensions.httpcache.FilesystemCacheStorage' |
| 32 | HTTPERROR_ALLOWED_CODES 一個列表,其中所有響應都透過非 200 狀態程式碼傳遞。 預設值:[] |
| 33 | HTTPERROR_ALLOW_ALL 啟用此設定後,所有響應都將透過,無論其狀態程式碼如何。 預設值:False |
| 34 | HTTPPROXY_AUTH_ENCODING 用於在 HttpProxyMiddleware 上對代理進行身份驗證。 預設值:"latin-1" |
| 35 | IMAGES_EXPIRES 定義影像過期的延遲。 預設值:90 天 |
| 36 | IMAGES_MIN_HEIGHT 用於使用最小尺寸丟棄太小的影像。 |
| 37 | IMAGES_MIN_WIDTH 用於使用最小尺寸丟棄太小的影像。 |
| 38 | IMAGES_RESULT_FIELD 當您想為處理後的影像使用其他欄位名稱時設定。 |
| 39 | IMAGES_STORE 透過將其設定為有效值來儲存下載的影像。 |
| 40 | IMAGES_STORE_S3_ACL 用於修改儲存在 Amazon S3 儲存桶中的影像的 ACL 策略。 預設值:private |
| 41 | IMAGES_THUMBS 設定為建立下載影像的縮圖。 |
| 42 | IMAGES_URLS_FIELD 當您想為影像 URL 使用其他欄位名稱時設定。 |
| 43 | MAIL_FROM 發件人使用此設定傳送電子郵件。 預設值:'scrapy@localhost' |
| 44 | MAIL_HOST 用於傳送電子郵件的 SMTP 主機。 預設值:'localhost' |
| 45 | MAIL_PASS 用於對 SMTP 進行身份驗證的密碼。 預設值:None |
| 46 | MAIL_PORT 用於傳送電子郵件的 SMTP 埠。 預設值:25 |
| 47 | MAIL_SSL 用於使用 SSL 加密連線實現連線。 預設值:False |
| 48 | MAIL_TLS 啟用後,它強制使用 STARTTLS 建立連線。 預設值:False |
| 49 | MAIL_USER 定義用於對 SMTP 進行身份驗證的使用者。 預設值:None |
| 50 | METAREFRESH_ENABLED 指示元重新整理中介軟體是否啟用。 預設值:True |
| 51 | METAREFRESH_MAXDELAY 元重新整理重定向的最大延遲。 預設值:100 |
| 52 | REDIRECT_ENABLED 指示重定向中介軟體是否啟用。 預設值:True |
| 53 | REDIRECT_MAX_TIMES 定義請求重定向的最大次數。 預設值:20 |
| 54 | REFERER_ENABLED 指示推薦來源中介軟體是否啟用。 預設值:True |
| 55 | RETRY_ENABLED 指示重試中介軟體是否啟用。 預設值:True |
| 56 | RETRY_HTTP_CODES 定義要重試的 HTTP 程式碼。 預設值:[500, 502, 503, 504, 408] |
| 57 | RETRY_TIMES 定義重試的最大次數。 預設值:2 |
| 58 | TELNETCONSOLE_HOST 定義 Telnet 控制檯必須監聽的介面。 預設值:'127.0.0.1' |
| 59 | TELNETCONSOLE_PORT 定義用於 Telnet 控制檯的埠。 預設值:[6023, 6073] |