SEO - robots.txt



robots.txt 檔案包含網站上搜索引擎蜘蛛可以訪問的 URL 列表。這種方法不會阻止 Google 對網站進行索引;它主要用於控制網站免受搜尋過載的影響。使用 <noindex>阻止 Google 抓取網站內容或使用密碼保護以將其隱藏。

標準 robots.txt 檔案結構

Robots

即使 robots.txt 檔案可能包含許多使用者代理和指令(例如禁止、允許、抓取延遲等)行,但這兩部分組合在一起被認為是整個 robots.txt 檔案。

這是一個真實的“robots.txt”檔案示例

Robots Website

什麼是使用者代理?

每個搜尋引擎都使用唯一的使用者代理來識別自己。在 robots.txt 檔案中,您可以為每個使用者代理指定特定的指令。可以使用無數的使用者代理。但是,以下幾個對 SEO 很有幫助:

平臺和瀏覽器 使用者代理示例
Windows 10 上的 Google Chrome Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36
MS Windows 10 上的 Mozilla Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/113.0
適用於 macOS 的 Mozilla Mozilla/5.0 (Macintosh; Intel Mac OS X 13.4; rv:109.0) Gecko/20100101 Firefox/113.0
適用於 Android 的 Mozilla Mozilla/5.0 (Android 13; Mobile; rv:109.0) Gecko/113.0 Firefox/113.0
macOS 上的 Safari Mozilla/5.0 (Macintosh; Intel Mac OS X 13_4) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/16.5 Safari/605.1.15
Microsoft Edge Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36 Edg/113.0.1774.57

注意

  • 請記住,robots.txt 對所有使用者代理都非常敏感。

  • 要將指令分配給每個使用者代理,請使用星號 (*) 萬用字元。

以下是一些最流行的使用者代理機器人的示例:

建立者 機器人
Google Googlebot
微軟必應 Bingbot
雅虎 Slurp
Google 圖片 Googlebot-Image
百度 Baiduspider
DuckDuckGo DuckDuckBot

例如,假設您希望阻止除 Googlebot 之外的所有機器人分析您的網站。以下是如何操作:

Sample Robots

指令

您希望指定的使用者的代理遵守的準則稱為指令。

支援的指令

以下是 Google 目前識別及其應用的指令:

  • Disallow - 此指令用於阻止搜尋引擎訪問位於特定路徑的檔案和網頁。

  • Allow - 此指令用於允許或許可搜尋引擎訪問位於特定路徑的檔案和網頁。

  • Sitemaps - 要告訴搜尋引擎網站地圖的位置,請使用此指令。網站地圖通常包含網站開發者希望搜尋引擎蜘蛛掃描和索引的內容。

不支援的指令

以下列出的 Google 指令是從未正式支援且不再可用的一些指令。

  • Crawl-delay - 此指令以前用於指定抓取時間間隔。例如,假設您希望 Googlebot 在每次抓取操作之間保持 10 秒的空閒狀態,那麼抓取延遲將設定為 10。Bing 繼續支援此請求,而 Google 已停止。

Crawl-Delay
  • Noindex - Google 從未為此指令集提供任何正式支援。

  • Nofollow - Google 從未正式支援此指令。

robots.txt 檔案的最大允許大小是多少?

大約 500 千位元組。

robots.txt 檔案是必需的嗎?

大多數網站,特別是流量較小的網站,不一定需要包含 robots.txt 檔案。但是,沒有不包含它的正當理由。透過對搜尋引擎爬蟲允許訪問網站的內容擁有更大的控制權,您可以處理以下問題:

  • 保護網站的私密區域,限制對相同資料的抓取。

  • 限制對網頁內部搜尋結果的抓取。

  • 防止伺服器擁塞和過載。

  • 阻止 Google 消耗設定的抓取資源。

  • 禁止資產檔案、影片和照片出現在 Google 搜尋結果頁面上。

儘管 Google 通常無法索引具有 robots.txt 限制的網站,但務必記住,沒有辦法透過使用 robots.txt 檔案來確保從搜尋結果中刪除。

查詢 robots.txt 檔案的方法

如果您已經設定了一個 robots.txt 檔案,則可以在“exampledomain.com/robots.txt”處找到網站的 robots.txt 指令碼。在 Web 瀏覽器中輸入那裡的 URL。當您看到類似以下內容的文字時,您就擁有了一個 robots.txt 檔案:

Robots Txt

建立 robots.txt 檔案:說明

  • 如果您從未建立過 robots.txt 檔案,它很簡單。只需啟動一個空白的 .txt 檔案並開始輸入指令。繼續新增您操作的指令,直到您涵蓋了所有預期欄位。將您儲存的檔案命名為“robots.txt”。

  • robots.txt 生成器是另一種選擇。使用此類工具的好處是它減少了語法錯誤。這是幸運的,因為單個錯誤可能會對您的網站產生災難性的 SEO 影響。缺點是靈活性方面存在一些限制。

robots.txt 檔案的位置

  • 您的 robots.txt 檔案引用的子域名的主要目錄應包含它。例如,robots.txt 檔案必須位於“tutorialspoint.com/robots.txt”處才能控制“tutorialspoint.com”的抓取行為。

  • 如果您希望將抓取限制為“ebooks.domain.com”等子域名,則必須能夠在“ebooks.domain.com/robots.txt”處檢視 robots.txt 檔案。

robots.txt 檔案指南

為每個指令另起一行

每個指令必須建立一行。如果它沒有建立,搜尋引擎蜘蛛將會感到困惑。

可以使用萬用字元使指令更易於訪問

在表達指令時,萬用字元 (*) 可以識別 URL 序列並在所有使用者代理中實現它們。

要指示 URL 的結尾,請輸入“$”。

要指示 URL 的結尾,請使用美元符號“$”。如果您希望阻止 Web 爬蟲檢視您網站上的所有 .png 檔案,則 robots.txt 檔案可能類似於以下內容:

Dollar Symbol

每個使用者代理只使用一次

當您重複使用單個使用者代理時,Google 不會介意。但是,將合併和遵循來自不同宣告的所有規則,從而降低準確性,並且在某些情況下,不會計算一個方面。考慮到配置的複雜性較低,因此只需指定每個使用者代理一次是有意義的。保持井井有條和簡單可以降低您犯嚴重錯誤的風險。

編寫註釋以告知其他人有關您的 robots.txt 檔案

由於註釋的存在,開發人員(甚至您以後的自己)可以更容易地理解您的 robots.txt 檔案。應使用雜湊 (#) 開頭註釋行。

詳細說明以防止意外錯誤

設定指令而沒有具體準則可能會導致被忽視的錯誤,這些錯誤可能會嚴重損害您的 SEO 工作。

Comments

由於 robots.txt 導致的阻止問題

這表示您的網站上存在未被 Google 索引的內容,這些內容已被 robots.txt 限制。如果資料很重要並且需要被抓取和索引,請關閉 robots.txt 爬蟲限制。

結論

robots.txt 是一個簡單但有效的檔案。如果使用得當,它可以幫助您的 SEO。如果您不小心使用它,您以後會後悔的。

廣告
© . All rights reserved.