網頁使用挖掘的規則是什麼?
網頁挖掘定義了使用資料探勘技術提取有益模式、趨勢和資料的過程,通常藉助於網路,透過處理來自基於網路的記錄和服務、伺服器日誌和超連結來實現。網頁挖掘的目標是透過收集和分析資訊來發現網頁記錄中的設計,從而獲得重要的見解。
網頁挖掘可以被視為將適應性資料探勘方法應用於網際網路,而資料探勘被定義為應用演算法來發現通常結構化資料中模式的過程,該過程被納入知識發現過程中。
網頁挖掘具有獨特的特點,可以提供一組多種資料型別。網路包含多個元素,這些元素為挖掘過程提供了多種方法,包括包含文字的網頁、透過超連結連結的網頁以及可以透過網路伺服器日誌監控的客戶活動。
網頁使用挖掘有各種規則,如下所示:
**預處理** - 網頁使用日誌並非挖掘應用程式可以訪問的格式。為了使某些資料能夠用於挖掘應用程式,可能需要重新格式化和清理資料。有些問題與使用 Web 日誌特別相關。處理階段包含的一些步驟包括:清理、使用者識別、會話識別、路徑完成和格式化。
**資料結構** - 已經提出了幾種獨特的資料結構來跟蹤在網頁使用挖掘過程中識別的模式。使用的一種基本資料結構稱為樹。樹是具有根的樹,其中從根到葉的每條路徑都表示一個序列。樹可以儲存用於模式匹配應用程式的字串。樹的唯一問題是空間需求。
**模式發現** - 用於點選流資料的最常見資料探勘技術是發現遍歷模式。遍歷模式是使用者在一個會話中檢查的一組頁面。網頁使用挖掘可以發現其他型別的模式。使用不同的組合來查詢模式,這些組合用於發現不同的特徵並用於不同的目的。
**模式分析** - 發現模式後,必須對其進行分析以確定如何使用該資訊。某些模式可以被刪除,並確定其無意義。
模式分析是檢視和解釋發現活動結果的階段。不僅需要識別頻繁的遍歷模式型別,還需要識別由於其唯一性或統計特性而令人感興趣的模式。
資料結構
網路
關係資料庫管理系統 (RDBMS)
作業系統
Java
iOS
HTML
CSS
Android
Python
C語言程式設計
C++
C#
MongoDB
MySQL
Javascript
PHP