分類資料的離散化和概念層次生成技術是什麼?


分類資料是離散資料。分類屬性具有固定數量的 distinct 值,這些值之間沒有順序關係,例如地理區域、職位類別和專案型別。生成分類資料概念層次結構的方法如下:

  • 使用者或專家在模式級別顯式指定屬性的部分排序 - 分類屬性或維度的概念層次結構通常包含一組屬性。使用者或專業人員可以透過在模式級別定義屬性的部分或全部排序來表示概念層次結構。

例如,關係資料庫或資料倉庫的維度區域可以包含以下屬性組:街道、城市、省份或州和國家。可以透過在模式級別定義這些屬性之間的全序來表示層次結構,例如街道 < 城市 < 省份或州 < 國家。

  • 透過顯式資料分組指定層次結構的一部分 - 這是手動定義概念層次結構的一部分。在大型資料庫中,透過顯式值列舉來表示整個概念層次結構是不現實的。相反,它可以簡單地表示中間級別資料的一小部分的顯式分組。

  • 指定一組屬性,但不指定它們的部分排序 - 使用者可以描述構成概念層次結構的一組屬性,但可以不顯式宣告它們的部分排序。系統可以嘗試自動生成屬性順序以構建有意義的概念層次結構。

基於此觀察,可以根據給定屬性集中每個屬性的多個 distinct 值自動建立概念層次結構。具有最多 distinct 值的屬性位於層次結構的最低級別。屬性的 distinct 值越少,它在生成的層次結構中就越高。這種啟發式規則在某些情況下執行良好。如有必要,使用者或專業人員可以在分析生成的層次結構後使用一些區域性交換或調整。

  • 僅指定部分屬性集 - 使用者可能對需要包含在層次結構中的內容只有一個模糊的概念,例如,使用者名稱可以只指定名字和姓氏,而不包括中間名。這種部分指定的層次結構透過在資料庫設計中安裝資料語義來管理,以將具有快速語義連線的屬性組合在一起。

更新於:2021年11月19日

1K+ 次瀏覽

開啟您的職業生涯

完成課程獲得認證

開始學習
廣告
© . All rights reserved.