什麼是聚焦網路爬蟲?
聚焦網路爬蟲是一種超文本系統,它能夠調查、獲取、索引和支援特定主題的網頁,這些主題定義了網路的一個相對狹窄的片段。它只需要很少的硬體和網路資源投資,卻能夠以很快的速度實現可觀的覆蓋率,這僅僅是因為它需要處理的資訊相對較少。
聚焦網路爬蟲由一個分類器(它學習從主題分類法中嵌入的例子中識別相關性)和一個提取器(它識別網際網路上的主題優勢點)來執行。
聚焦網路爬蟲使用垂直搜尋引擎來抓取特定於目標主題的網頁。每個獲取的頁面都被分類到預定義的目標主題中。如果預測該頁面與主題相關,則提取其連結並將其新增到URL佇列中。
否則,爬取過程將不會從此頁面繼續進行。這種聚焦網路爬蟲被稱為“全頁”聚焦網路爬蟲,因為它對全頁內容進行分類。換句話說,頁面上所有連結的上下文就是全頁內容本身。
這種網路爬蟲能夠更有效地建立索引,直接幫助我們實現從全球資訊網龐大資源庫中更快、更相關地檢索資料的基本要求。一些搜尋引擎已經開始使用這種方法,為使用者提供更豐富的體驗,同時直接增加他們的點選量。
爬蟲管理器是繼超文字分析器之後系統中的一個重要組成部分。該元件從全球網路下載檔案。URL 儲存庫中的 URL 會被檢索並新增到爬蟲管理器中的緩衝區。
URL 緩衝區是一個優先順序佇列。根據 URL 緩衝區的大小,爬蟲管理器會動態地為爬蟲建立例項,這些例項將下載檔案。為了提高效率,爬蟲管理器可以生成一個爬蟲池。管理器還負責限制爬蟲的速度並在它們之間平衡負載。這是透過檢查爬蟲來完成的。
爬蟲是一個多執行緒 Java 程式碼,它足以從網際網路下載網頁並將檔案儲存到文件儲存庫中。每個爬蟲都有自己的佇列,該佇列影響要爬取的 URL 檔案。爬蟲從佇列中檢索 URL。
不同的爬蟲可能會向同一個伺服器傳送共享請求。如果是這樣,向相同的伺服器傳送請求會導致伺服器過載。伺服器積極地完成必須來自已共享請求並等待響應的爬蟲的請求。
資料結構
網路
關係資料庫管理系統 (RDBMS)
作業系統
Java
iOS
HTML
CSS
Android
Python
C語言程式設計
C++
C#
MongoDB
MySQL
Javascript
PHP