關聯規則聚類系統涉及哪些步驟?
關聯規則聚類系統涉及以下步驟:
分箱 - 定量屬性可以具有一系列廣泛的值來表示其域。可以考慮一下,如果將年齡和收入作為軸繪製,那麼一個二維網格會有多大,其中年齡的每個可能值都在一個軸上建立了一個特定位置,同樣,收入的每個可能值都在另一個軸上建立了一個特定位置。
可以將網格保持在可管理的大小,可以將定量屬性的區域劃分為區間。這些區間功能強大,因為它們可以在挖掘階段合併。分割槽階段定義為分箱,即區間被視為“箱”。
有三種常見的分箱策略:
等寬分箱 - 在等寬分箱中,每個箱的區間大小相同。
等頻分箱 - 在等頻分箱中,每個箱分配的大約元組數量相同。
基於聚類的分箱 - 在基於聚類的分箱中,對定量屬性執行聚類,以將相鄰點(根據各種距離度量判斷)分組到同一箱中。
ARCS 需要等寬分箱,其中每個定量屬性的箱大小由使用者輸入。生成一個二維陣列,用於每個可能的箱組合,包括兩個定量屬性。
每個陣列單元格都會影響規則右側每個可實現的分類屬性類的對應計數分佈。透過構建這種資料結構,只需要掃描一次任務相關資料。相同的二維陣列可用於生成某些分類屬性值的規則,具體取決於相同的兩個定量屬性。
查詢頻繁謂詞集 - 由於設定了包含每個類別的計數分佈的二維陣列,因此可以掃描它以發現頻繁謂詞集(滿足最小支援的謂詞集),這些謂詞集也滿足最小置信度。
該演算法檢查網格,尋找規則的矩形簇。在這種方法中,可以組合出現在規則簇內的定量屬性的箱,因此會出現定量屬性的動態離散化。
網格方法描述了原始關聯規則可以聚類成矩形區域。在實現聚類之前,可以使用平滑方法來提供去除記錄中的噪聲和異常值。矩形簇可能會過度簡化資訊。
已建議使用非網格方法來發現更通用的定量關聯規則,其中可以在規則的兩側出現多個定量和分類屬性。
在這種方法中,使用相同頻率分箱動態隔離定量屬性,並且根據部分完整性度量組合分割槽,該度量量化了由於分割槽而丟失的資料。
資料結構
網路
關係資料庫管理系統
作業系統
Java
iOS
HTML
CSS
Android
Python
C 程式設計
C++
C#
MongoDB
MySQL
Javascript
PHP