什麼是聚焦網路爬蟲?


聚焦網路爬蟲是一種超文本系統,它能夠調查、獲取、索引和支援特定主題的網頁,這些主題定義了網路的一個相對狹窄的片段。它只需要很少的硬體和網路資源投資,卻能夠以很快的速度實現可觀的覆蓋率,這僅僅是因為它需要處理的資訊相對較少。

聚焦網路爬蟲由一個分類器(它學習從主題分類法中嵌入的例子中識別相關性)和一個提取器(它識別網際網路上的主題優勢點)來執行。

聚焦網路爬蟲使用垂直搜尋引擎來抓取特定於目標主題的網頁。每個獲取的頁面都被分類到預定義的目標主題中。如果預測該頁面與主題相關,則提取其連結並將其新增到URL佇列中。

否則,爬取過程將不會從此頁面繼續進行。這種聚焦網路爬蟲被稱為“全頁”聚焦網路爬蟲,因為它對全頁內容進行分類。換句話說,頁面上所有連結的上下文就是全頁內容本身。

這種網路爬蟲能夠更有效地建立索引,直接幫助我們實現從全球資訊網龐大資源庫中更快、更相關地檢索資料的基本要求。一些搜尋引擎已經開始使用這種方法,為使用者提供更豐富的體驗,同時直接增加他們的點選量。

爬蟲管理器是繼超文字分析器之後系統中的一個重要組成部分。該元件從全球網路下載檔案。URL 儲存庫中的 URL 會被檢索並新增到爬蟲管理器中的緩衝區。

URL 緩衝區是一個優先順序佇列。根據 URL 緩衝區的大小,爬蟲管理器會動態地為爬蟲建立例項,這些例項將下載檔案。為了提高效率,爬蟲管理器可以生成一個爬蟲池。管理器還負責限制爬蟲的速度並在它們之間平衡負載。這是透過檢查爬蟲來完成的。

爬蟲是一個多執行緒 Java 程式碼,它足以從網際網路下載網頁並將檔案儲存到文件儲存庫中。每個爬蟲都有自己的佇列,該佇列影響要爬取的 URL 檔案。爬蟲從佇列中檢索 URL。

不同的爬蟲可能會向同一個伺服器傳送共享請求。如果是這樣,向相同的伺服器傳送請求會導致伺服器過載。伺服器積極地完成必須來自已共享請求並等待響應的爬蟲的請求。

更新於:2022年2月16日

2K+ 次瀏覽

開啟你的職業生涯

完成課程獲得認證

開始學習
廣告
© . All rights reserved.