什麼是網頁使用挖掘?
網頁使用挖掘用於從 Web 日誌資料中提取有用的資料、資訊和知識,並有助於識別使用者對網頁的訪問模式。
在挖掘中,Web 資源的管理,個人會考慮網站訪問者請求的資料,這些資料以 Web 伺服器日誌的形式組成。雖然網頁集的內容和機制遵循頁面作者的意圖,但單個請求顯示了使用者如何檢視這些頁面。網頁使用挖掘可以揭示頁面設計者未曾預料到的關係。
Web 伺服器通常會為每次訪問 Web 頁面註冊一個(Web)日誌條目,或 Web 日誌條目。它包含請求的 URL、發起請求的 IP 地址和時間戳。
對於基於 Web 的電子商務伺服器,會收集大量 Web 訪問日誌資料。一些著名的網站每天可以記錄數千兆位元組的 Web 日誌記錄。Web 日誌資料庫支援關於 Web 動態的豐富資料。因此,開發複雜的 Web 日誌挖掘方法至關重要。
在開發網頁使用挖掘方法時,可以考慮以下幾點。首先,儘管構思 Web 日誌檔案分析的多種應用是令人鼓舞和刺激的。但必須理解,此類應用的成功取決於從大量原始日誌記錄中能夠找到什麼以及能找到多少真實可靠的知識。
其次,利用可用的 URL、時間、IP 地址和網頁內容資料,可以在 Web 日誌資料庫上構建多維檢視,並可以實現多維 OLAP 分析來發現前 N 個使用者、前 N 個訪問的網頁、最常訪問的時間段等,這將有助於發現潛在的客戶、使用者、市場等。
第三,可以對 Web 日誌記錄實施資料探勘,以發現 Web 訪問的關聯模式、順序模式和趨勢。對於 Web 訪問模式挖掘,必須採取進一步措施以獲取更多使用者遍歷資料,以簡化準確的 Web 日誌分析。
此類更多資料可以包括 Internet 伺服器緩衝區中網頁的使用者瀏覽序列。隨著此類 Web 日誌文件的需求,研究一直致力於分析系統實現、透過 Web 快取、網頁預取和網頁交換增強系統設計;瞭解 Web 流量的特徵;以及瞭解客戶的反應和動機。
例如,一些研究提出了自適應網站——通過了解使用者訪問模式來增強自身的網站。Web 日誌分析還可以幫助為單個使用者構建定製的 Web 服務。