什麼是Web結構挖掘?


Web結構挖掘是一種能夠識別透過資料或直接連結連線的網頁之間關係的工具。透過資料庫技術為網頁提供Web結構模式,可以發現這種結構化資料。

這種連線使搜尋引擎能夠直接從內容所在的網站將與搜尋查詢相關的數 據提取到連線的網頁。這個過程需要蜘蛛程式掃描網站,獲取主頁,然後透過引用連線連線資料,從而調出包含所需資訊的特定頁面。

Web挖掘可以廣泛地被視為將調整後的資料探勘方法應用於Web,而資料探勘則表示將演算法應用於查詢主要固定在知識發現過程中的結構化資料中的模式。

Web挖掘具有支援多個數據型別集合的獨特特性。Web具有多個方面,可以為挖掘過程提供多種方法,例如包含文字的網頁、透過超連結連線的網頁以及可以透過Web伺服器日誌監控的使用者活動。

結構挖掘利用最小化全球資訊網的兩個主要問題,因為它的資料量巨大。第一個問題與搜尋結果無關。

由於搜尋引擎通常只允許低精度標準,搜尋資訊的關聯性變得曲解。

第二個問題是無法索引Web上支援的大量資料。這導致內容挖掘的記憶量減少。這種最小化部分體現在透過Web結構挖掘支援的Web超連結結構的底層模型的查詢服務中。

結構挖掘的目的是提取網頁之間以前未知的關係。這種資料探勘結構為企業連線其網站資料以允許導航和將資料聚類到站點地圖提供了用途。

這使使用者能夠透過關鍵詞關係和內容挖掘建立所需的資料。還決定了超連結層次結構,以便將站點內的相關資料與競爭對手鍊接和透過搜尋引擎以及第三方協同連結的連線路徑關聯起來。這允許對連結的網頁進行聚類,以建立這些網頁的關係。

在全球資訊網上,結構挖掘的使用允許透過識別基本結構來確定網頁的相同架構。

這些資料可用於設計web內容的相似性。已知的相似性然後支援支援或改進站點資料的能力,以便以更高的比率訪問web蜘蛛。Web爬蟲的數量越多,對站點越有利,因為與搜尋相關的內容越多。

更新於:2022年2月16日

5000+ 次瀏覽

啟動您的職業生涯

透過完成課程獲得認證

開始學習
廣告