什麼是基於約束的關聯挖掘?
資料探勘過程可以從給定的資訊集中挖掘出數千條規則,其中大部分規則最終對使用者來說是獨立的或乏味的。使用者最瞭解哪種挖掘“方向”可以導致有趣的模式,以及他們希望發現的模式或規則的“形式”。
因此,一個好的啟發式方法是讓使用者將這種直覺或期望定義為約束,以約束搜尋空間。這種策略稱為基於約束的挖掘。
基於約束的演算法需要約束來減少頻繁項集生成步驟中的搜尋區域(關聯規則生成步驟與窮舉演算法相同)。
一般約束是最小支援閾值。如果一個約束不受控制,則將其包含在挖掘階段可以支援顯著減少探索空間,因為在搜尋空間格中定義了一個邊界,在此之後不需要探索。
約束的重要性是明確的——它們僅建立對使用者有吸引力的關聯規則。該方法非常簡單,並且規則空間減少了,從而使其餘方法滿足約束。
基於約束的聚類發現滿足使用者定義的偏好或約束的聚類。它取決於約束的特徵,基於約束的聚類可以採用相當不同的方法。
約束可以包括以下內容:
知識型別約束 - 這些定義要挖掘的知識型別,包括關聯或相關性。
資料約束 - 這些定義任務相關資訊集,例如維度/級別約束 - 這些定義資訊所需的維度(或屬性),或概念層次結構的方法,用於挖掘。
有趣性約束 - 這些定義規則有趣性的數值度量的閾值,包括支援度、置信度和相關性。
規則約束 - 這些定義要挖掘的規則的形式。此類約束可以定義為元規則(規則模板),作為規則前件或後件中可以出現的謂詞的最大或最小數量,或作為屬性、屬性值和/或聚合之間的關係。
可以使用高階宣告式資料探勘查詢語言和使用者介面來描述以下約束。這種形式的基於約束的挖掘使使用者能夠定義他們希望發現的規則,從而使資料探勘過程更有效率。
此外,可以使用複雜的挖掘查詢最佳化器來處理使用者定義的約束,從而使挖掘過程更有效。基於約束的挖掘促進了互動式探索性挖掘和分析。