什麼是聚焦網路爬蟲？

資料探勘資料庫資料結構

聚焦網路爬蟲是一種超文本系統，它能夠調查、獲取、索引和支援特定主題的網頁，這些主題定義了網路的一個相對狹窄的片段。它只需要很少的硬體和網路資源投資，卻能夠以很快的速度實現可觀的覆蓋率，這僅僅是因為它需要處理的資訊相對較少。

聚焦網路爬蟲由一個分類器（它學習從主題分類法中嵌入的例子中識別相關性）和一個提取器（它識別網際網路上的主題優勢點）來執行。

聚焦網路爬蟲使用垂直搜尋引擎來抓取特定於目標主題的網頁。每個獲取的頁面都被分類到預定義的目標主題中。如果預測該頁面與主題相關，則提取其連結並將其新增到URL佇列中。

否則，爬取過程將不會從此頁面繼續進行。這種聚焦網路爬蟲被稱為“全頁”聚焦網路爬蟲，因為它對全頁內容進行分類。換句話說，頁面上所有連結的上下文就是全頁內容本身。

這種網路爬蟲能夠更有效地建立索引，直接幫助我們實現從全球資訊網龐大資源庫中更快、更相關地檢索資料的基本要求。一些搜尋引擎已經開始使用這種方法，為使用者提供更豐富的體驗，同時直接增加他們的點選量。

爬蟲管理器是繼超文字分析器之後系統中的一個重要組成部分。該元件從全球網路下載檔案。URL 儲存庫中的 URL 會被檢索並新增到爬蟲管理器中的緩衝區。

URL 緩衝區是一個優先順序佇列。根據 URL 緩衝區的大小，爬蟲管理器會動態地為爬蟲建立例項，這些例項將下載檔案。為了提高效率，爬蟲管理器可以生成一個爬蟲池。管理器還負責限制爬蟲的速度並在它們之間平衡負載。這是透過檢查爬蟲來完成的。

爬蟲是一個多執行緒 Java 程式碼，它足以從網際網路下載網頁並將檔案儲存到文件儲存庫中。每個爬蟲都有自己的佇列，該佇列影響要爬取的 URL 檔案。爬蟲從佇列中檢索 URL。

不同的爬蟲可能會向同一個伺服器傳送共享請求。如果是這樣，向相同的伺服器傳送請求會導致伺服器過載。伺服器積極地完成必須來自已共享請求並等待響應的爬蟲的請求。

Ginni

更新於：2022年2月16日

2K+ 次瀏覽

開啟你的職業生涯

完成課程獲得認證

廣告

© . All rights reserved.