聚焦網路爬蟲的組成部分是什麼?


聚焦網路爬蟲包含以下幾個組成部分:

種子檢測器 − 種子檢測器的作用是透過獲取前n個URL來確定特定關鍵詞的種子URL。種子頁面根據PageRank演算法或hits演算法或類似演算法進行識別和優先順序分配。

爬蟲管理器 − 爬蟲管理器是系統中超文字分析器之後的一個重要組成部分。該元件從全球網路下載檔案。URL儲存庫中的URL被檢索並建立到爬蟲管理器中的緩衝區。

URL緩衝區是一個優先順序佇列。根據URL緩衝區的大小,爬蟲管理器會動態建立爬蟲例項來下載檔案。

為了提高效率,爬蟲管理器可以生成一個爬蟲池。管理器還負責限制爬蟲的速度並在它們之間平衡負載。這是透過檢查爬蟲來完成的。

爬蟲 − 爬蟲是一個多執行緒Java程式碼,足以從網路下載網頁並將檔案儲存到文件儲存庫。每個爬蟲都有自己的佇列,該佇列影響要爬取的URL列表。爬蟲從佇列中檢索URL。

不同的爬蟲可能會向同一伺服器傳送共享請求。因此,向同一伺服器傳送請求會導致伺服器過載。伺服器積極地完成必須來自共享請求的爬蟲的請求並等待響應。

伺服器是同步建立的。如果之前沒有共享對URL的請求,則該請求將轉發到HTTP結構。這確保了爬蟲不會使某些伺服器過載。

連結提取器 − 連結提取器從文件儲存庫中存在的檔案中提取連結。該元件測試URL是否已在檢索到的URL中。如果沒有發現,則提取超連結之前和之後周圍的文字、連結所在的標題或子標題。

超文字分析器 − 超文字分析器從連結提取器獲取關鍵詞,並根據定義分類層次結構的搜尋關鍵詞發現方法的相關性。

HTTP協議模組 − HTTP協議模組共享對已從佇列中確認其URL的檔案的請求。在收到文件後,將下載的文件的URL與時間戳一起儲存在已獲取的URL中,並將文件儲存在文件儲存庫中。

更新於:2022年2月16日

瀏覽量:835

啟動您的職業生涯

完成課程獲得認證

開始學習
廣告
© . All rights reserved.