資料倉庫的實現有哪些?


資料倉庫包含大量的資料。OLAP 伺服器要求決策支援查詢在幾秒鐘內得到確認。因此,資料倉庫系統必須提供高效的立方體計算技術、訪問技術和查詢處理技術。

資料立方體的有效計算

多維資料分析的核心是跨多個維度集合對聚合進行有效計算。在 SQL 術語中,這些聚合被稱為分組依據。每個分組依據可以用一個立方體表示,其中分組依據的集合形成一個立方體晶格,定義了一個數據立方體。

給定一個基立方體,有三種資料立方體物化的選擇 -

  • **不進行物化** - 它不預先計算任何“非基”立方體。這會導致動態計算代價高昂的多維聚合,這可能非常慢。

  • **完全物化** - 它可以預先計算所有立方體。計算出的立方體晶格被稱為完整立方體。這種選擇通常需要大量的記憶體空間來儲存所有預先計算的立方體。

  • **部分物化** - 它可以選擇性地計算整個可能的立方體集合的適當子集。或者,它可以計算立方體的子集,其中僅包含滿足某些使用者指定條件的單元格,包括每個單元格的元組計數是否遵循某個閾值。

索引 OLAP 資料

它可以支援高效的資料訪問,一些資料倉庫系統提供索引結構和物化檢視(使用立方體)。點陣圖索引方法在 OLAP 產品中很有名,因為它能夠在資料立方體中進行快速搜尋。點陣圖索引是記錄 ID (RID) 列表的替代表示。

在給定屬性的點陣圖索引中,每個屬性域中的每個值 v 都有一個不同的位向量 Bv。如果給定屬性的域包含 n 個值,則點陣圖索引中的每個條目都需要 n 位(即,有 n 個位向量)。如果屬性在資料表中給定行的值是 v,則定義該值的位在點陣圖索引的對應行中設定為 1。該行的所有其他位都設定為 0。

OLAP 查詢的有效處理

物化立方體和構建 OLAP 索引結構的目標是加快資料立方體中的查詢處理速度。

  • **確定應在可用立方體上執行哪些操作** - 這包括將查詢中表示的一些選擇、投影、彙總(分組依據)和向下鑽取操作轉換為相應的 SQL 和/或 OLAP 操作。例如,切片和切塊資料立方體可以對應於物化立方體上的選擇和投影操作。

  • **確定應將相關操作應用於哪些物化立方體** - 這包括識別一些可能用於回答查詢的物化立方體,使用立方體之間“支配”關係的知識修剪以下集合,估計使用剩餘物化立方體和選擇成本最低的立方體。

更新於: 2021年11月22日

2K+ 瀏覽量

開啟你的 職業生涯

透過完成課程獲得認證

開始學習
廣告