資料轉換的服務是什麼?


在資料轉換中,資料被轉換或連結成適用於挖掘的形式。資料轉換可以包含以下內容 -

  • 平滑化 - 它可以用於去除資料中的噪聲。此類技術包括分箱、迴歸和聚類。

  • 聚合 - 在聚合中,對資料應用匯總或聚合操作。

  • 泛化 - 在泛化中,透過概念層次結構的需要,將低階或“原始”(原始)資料恢復為更高級別的概念。

資料轉換有各種服務,如下所示 -

整合 - 整合包括生成代理鍵、將一個方案中的鍵對映到另一個方案,以及將程式對映到完整描述中。此轉換背後有一個隱式許可權來支援主金鑰查詢表。

緩慢變化維度維護 - 識別更改的值並建立代理鍵是一個棘手的過程,但它不是空間扭曲數學。如果您購買資料暫存工具,它應該內建有管理緩慢變化維度的演算法。

反規範化和重新規範化 - 將分層的分離表反規範化為維度是標準的倉庫轉換過程。一些資料暫存工具提供了一個星型模式功能,可以自動執行此功能。此外,一些反規範化發生在事實表階段。

例如,財務架構可能有一個維度是金額型別,其值可以是實際、預算或預測。根據這些記錄包含的詳細程度,將此列透視到一行中,包含三個美元金額列,每個金額型別一個,可能很有意義。

清洗、去重、合併/清除 - 對於許多資料倉庫來說,這是一個大問題,特別是那些關注外部實體(如客戶、企業、醫生和患者)的資料倉庫。這是一個複雜的過程,但一些供應商專門為此問題提供工具和服務。

資料型別轉換 - 這涉及將一種資料型別或格式轉換為另一種的較低級別轉換。這範圍從將 IBM 的大型機字元集 EBCDIC 轉換為 ASCII,到將日期、數字和字元表示形式從一個數據庫轉換為另一個數據庫。

計算、派生、分配 - 這些是使用在需求階段識別的業務規則進行的轉換。確保您選擇的工具提供了一套完整的可用函式,包括字串操作、日期和時間算術、條件語句和基本數學。

聚合 - 可以根據在哪個階段可以訪問哪些資源,在載入過程的某些元素中管理聚合。如果可以在提取或轉換過程中將聚合計算為一個元素,則可以使用像 Syncsort 這樣的工具直接處理平面記錄。這些實用程式是為排序和報告而開發的,並且非常擅長此工作。

更新於: 2022年2月9日

180 次檢視

開啟你的 職業生涯

透過完成課程獲得認證

開始
廣告

© . All rights reserved.