資料探勘 - 挖掘全球資訊網

全球資訊網包含大量資訊，為資料探勘提供了豐富的來源。

Web挖掘中的挑戰

基於以下觀察，Web對基於資源和知識的發現提出了巨大挑戰：

Web規模龐大 - Web的規模非常龐大，並且正在迅速增長。這似乎表明Web對於資料倉庫和資料探勘來說過於龐大。
網頁的複雜性 - 網頁沒有統一的結構。與傳統的文字文件相比，它們非常複雜。Web數字圖書館中存在大量文件。這些庫沒有按照任何特定的排序順序排列。
Web是動態資訊源 - Web上的資訊正在快速更新。諸如新聞、股票市場、天氣、體育、購物等資料會定期更新。
使用者社群的多樣性 - Web上的使用者社群正在迅速擴大。這些使用者具有不同的背景、興趣和使用目的。有超過1億個工作站連線到網際網路，並且仍在快速增長。
資訊的關聯性 - 認為特定的人通常只對Web的一小部分感興趣，而Web的其餘部分包含與使用者無關的資訊，可能會淹沒所需的結果。

網頁的基本結構基於文件物件模型 (DOM)。DOM結構指的是樹狀結構，其中頁面中的HTML標籤對應於DOM樹中的節點。我們可以使用HTML中的預定義標籤來分割網頁。HTML語法靈活，因此網頁不遵循W3C規範。不遵循W3C規範可能會導致DOM樹結構錯誤。

DOM結構最初是為了在瀏覽器中進行呈現而引入的，而不是為了描述網頁的語義結構。DOM結構無法正確識別網頁不同部分之間的語義關係。

下圖顯示了VIPS演算法的過程：

列印頁面