資料倉庫的工具和實用程式是什麼?


資料倉庫是一種主要用於收集和管理來自各種來源的資料的技術,以便為企業提供有意義的商業洞察。資料倉庫專門設計用於支援管理決策。

簡單來說,資料倉庫是指與組織的操作資料庫分開維護的資料庫。資料倉庫系統能夠整合多個應用程式系統。它們透過支援可靠的整合歷史資訊分析平臺來提供資料處理。

資料倉庫在多維領域對資訊進行概括和整合。資料倉庫的構建包括資料清洗、資料整合和資料轉換,可以認為是資料探勘的重要預處理步驟。這些工具和實用程式涉及以下功能:

資料提取

**資料清洗** - 資料清洗是指透過填充缺失值、平滑噪聲資料、識別和去除異常值以及去除資料中的不一致性來清洗資料。

資料清洗的型別

  • **缺失值** - 缺失值用適當的值填充。以下是填充值的方法。

  • **噪聲資料** - 噪聲是測量變數中的隨機誤差或方差。以下是處理噪聲的平滑技術:

    • **分箱法** - 這些技術透過其“鄰域”(即噪聲資料周圍的值)來平滑排序資料值。排序的值被分配到多個桶或箱中。因為分箱法會參考鄰近的值,所以它們實現了局部平滑。

    • **迴歸法** - 資料可以透過將記錄擬合到函式(包括迴歸)來平滑。線性迴歸涉及找到擬合兩個屬性(或變數)的“最佳”直線,以便可以使用一個屬性來預測另一個屬性。多元線性迴歸是線性迴歸的延續,其中包含兩個以上的屬性,並且資料擬合到多維曲面。

    • **聚類法** - 聚類有助於識別異常值。相似的值被組織成叢集,那些落在叢集之外的值稱為異常值。

**資料轉換** - 在資料轉換中,資料被轉換為或整合為適合挖掘的形式。資料轉換可能包括以下內容:

  • **平滑** - 它可以去除資料中的噪聲。此類技術包括分箱法、迴歸法和聚類法。

  • **聚合** - 在聚合中,對資料應用匯總或聚合操作。

  • **泛化** - 在泛化中,透過使用概念層次結構來將低階或“原始”(原始)資料還原為更高級別的概念。

**載入** - 它可以排序、彙總、整合、計算檢視、檢查完整性以及構建索引和分割槽。

**重新整理** - 它可以將更新從資料來源傳播到資料倉庫。

更新於:2021年11月22日

2K+ 次檢視

啟動您的職業生涯

透過完成課程獲得認證

開始
廣告