資料探勘 - 挖掘全球資訊網



全球資訊網包含大量資訊,為資料探勘提供了豐富的來源。

Web挖掘中的挑戰

基於以下觀察,Web對基於資源和知識的發現提出了巨大挑戰:

  • Web規模龐大 - Web的規模非常龐大,並且正在迅速增長。這似乎表明Web對於資料倉庫和資料探勘來說過於龐大。

  • 網頁的複雜性 - 網頁沒有統一的結構。與傳統的文字文件相比,它們非常複雜。Web數字圖書館中存在大量文件。這些庫沒有按照任何特定的排序順序排列。

  • Web是動態資訊源 - Web上的資訊正在快速更新。諸如新聞、股票市場、天氣、體育、購物等資料會定期更新。

  • 使用者社群的多樣性 - Web上的使用者社群正在迅速擴大。這些使用者具有不同的背景、興趣和使用目的。有超過1億個工作站連線到網際網路,並且仍在快速增長。

  • 資訊的關聯性 - 認為特定的人通常只對Web的一小部分感興趣,而Web的其餘部分包含與使用者無關的資訊,可能會淹沒所需的結果。

挖掘網頁佈局結構

網頁的基本結構基於文件物件模型 (DOM)。DOM結構指的是樹狀結構,其中頁面中的HTML標籤對應於DOM樹中的節點。我們可以使用HTML中的預定義標籤來分割網頁。HTML語法靈活,因此網頁不遵循W3C規範。不遵循W3C規範可能會導致DOM樹結構錯誤。

DOM結構最初是為了在瀏覽器中進行呈現而引入的,而不是為了描述網頁的語義結構。DOM結構無法正確識別網頁不同部分之間的語義關係。

基於視覺的頁面分割 (VIPS)

  • VIPS的目的是根據其視覺呈現提取網頁的語義結構。

  • 這種語義結構對應於樹狀結構。在這棵樹中,每個節點對應於一個塊。

  • 為每個節點分配一個值。此值稱為連貫度。分配此值是為了根據視覺感知指示塊中連貫的內容。

  • VIPS演算法首先從HTML DOM樹中提取所有合適的塊。之後,它找到這些塊之間的分隔符。

  • 分隔符指的是網頁中水平或垂直的線條,這些線條在視覺上交叉且沒有塊。

  • 網頁的語義是基於這些塊構建的。

下圖顯示了VIPS演算法的過程:

VIPS
廣告

© . All rights reserved.