資料概化和概念描述的方法是什麼?
資料概化透過用更高級別的概念(例如,年輕、中年和老年)替換相對低級別的值(例如,屬性年齡的數值)來概括資料。鑑於資料庫中儲存的大量資料,能夠以概括的(而不是低級別的)抽象方法以簡潔明瞭的術語定義概念是有益的。
它允許資料集在多個抽象級別上進行概化,這有助於使用者檢查資料的總體行為。例如,給定 AllElectronics 資料庫,銷售經理可以更傾向於檢視概括到更高級別的的資料,包括按地理區域彙總的使用者組、每個組的購買頻率和使用者收入。這使我們想到了概念描述的概念,概念描述是一種資料概化形式。
一個概念通常被定義為一組資料,包括常客、研究生等。作為一項資料探勘任務,概念描述不是資料的簡單列舉。相反,概念描述生成用於描述和比較資料的描述。當要定義的概念是一類物件時,它也稱為類描述。
特徵描述支援對給定資料集的簡潔明瞭的總結,而概念或類比較(也稱為區分)支援比較兩個或多個數據集的描述。有以下幾種情況:-
複雜資料型別和聚合 - 資料倉庫和 OLAP 工具依賴於多維資料模型,該模型以資料立方體的形式檢視資訊,包括維度(或屬性)和度量(聚合服務)。
但是,一些當前的 OLAP 系統將維度限制為非數值記錄,並將度量限制為數值資訊。資料庫可以包含多種資料型別的屬性,例如數值、非數值、空間、文字或影像,這些屬性必須包含在概念描述中。
使用者控制與自動化 - 資料倉庫中的聯機分析處理是一個使用者控制的階段。維度的選擇和 OLAP 服務的軟體,包括鑽取、上卷、切片和切塊,通常由使用者指導和管理。
儘管一些 OLAP 系統中的控制非常人性化,但使用者確實需要對每個維度的重要性有很好的理解。此外,為了找到資訊的滿意描述,使用者可能需要定義一系列長的 OLAP 操作。
需要一個更自動化的階段來幫助使用者確定哪些維度(或屬性)必須包含在分析中,以及必須概括給定資料集的程度,以便建立記錄的有趣摘要。