什麼是資料轉換？

資料探勘資料庫資料結構

在資料轉換中，資料被轉換或組合成適合挖掘的形式。資料轉換可能包括以下內容：

平滑處理 - 它可以用於去除資料中的噪聲。此類方法包括分箱、迴歸和聚類。

聚合 - 在聚合中，對資料應用匯總或聚合操作。例如，可以對每日銷售資料進行聚合以計算每月和每年的總金額。此階段通常用於建立資料立方體，以便在多個粒度級別上分析資料。

泛化 - 在泛化中，透過使用概念層次結構將低階或“原始”（原始）資料還原為更高級別的概念。例如，諸如街道之類的分類屬性可以泛化為諸如城市或國家之類的更高級別的概念。類似地，數值屬性（如年齡）的值可以對映到更高級別的概念，如青年、中年和老年。

歸一化 - 在歸一化中，屬性資料被縮放以落入一個小指定的範圍內，例如 -1.0 到 1.0 或 0.0 到 1.0。

屬性構造 - 在屬性構造中，從給定的屬性集中開發和新增新的屬性以促進挖掘過程。

平滑處理是資料清理的一種形式，在資料清理過程中已解決，使用者在其中指定轉換以更正資料不一致性。聚合和泛化提供作為資料減少的形式。透過縮放其值以使其在指定的小範圍內下降（包括 0.0 到 1.0）來歸一化屬性。

歸一化對於包含神經網路或距離度量（如最近鄰分類和聚類）的分類演算法特別有用。如果使用神經網路反向傳播演算法進行分類挖掘，則歸一化訓練元組中測量的每個屬性的輸入值將有助於加快學習階段。

對於基於距離的方法，歸一化有助於防止最初範圍較大的屬性（例如，收入）超過最初範圍較小的屬性（例如，二元屬性）。資料歸一化的方法有很多，如下所示：

最小-最大歸一化 - 它對原始資料實現線性變換。假設 min_A 和 max_A 是屬性 A 的最小值和最大值。最小-最大歸一化將 A 的值 v 對映到範圍 [new_min_A , new_max_A ] 中的 v^’，方法是計算

$$v'=\frac{v-min_{A}}{max_{A}-min_{A}}(new\_max_{A}- new\_min_{A})+new\_min_{A}$$

Z 分數歸一化 - 在 Z 分數歸一化（或零均值歸一化）中，屬性 A 的值根據 A 的均值和標準差進行歸一化。透過計算將 A 的值 v 歸一化為 v^’

$$v'=\frac{v-A^{'}}{\sigma_{A}}$$

其中 A 和 σ_A 分別是屬性 A 的均值和標準差。當屬性 A 的實際最小值和最大值未知，或者存在支配最小-最大歸一化的異常值時，此歸一化方法很有用。

十進位制縮放 - 透過十進位制縮放進行歸一化透過更改屬性 A 的值的十進位制點來進行歸一化。移動的小數點位數基於 A 的最大絕對值。透過計算將 A 的值 v 歸一化為 v^′

$$v'=\frac{v}{10^{j}}$$

其中 j 是使得 Max (|v^′|)<1 的最小整數。

吉尼

更新於： 2021 年 11 月 19 日

1K+ 瀏覽量

開啟你的職業生涯

透過完成課程獲得認證

廣告

© . All rights reserved.