什麼是資料清洗？

資料探勘資料庫資料結構

資料清洗是指透過填充缺失值、平滑噪聲資料、分析和去除異常值以及消除資料不一致性來清理資料。有時，不同層次細節的資料可能與所需資料不同，例如，可能需要20-30歲、30-40歲、40-50歲的年齡範圍，而匯入的資料包含出生日期。可以透過將資料拆分為適當的型別來清理資料。

資料清洗的型別

資料清洗有多種型別，如下所示：

缺失值 - 缺失值用適當的值填充。填充值的方法如下：
- 如果元組包含多個具有缺失值的屬性，則忽略該元組。
- 手動填充缺失值。
- 可以使用相同的全域性常量填充值。
- 可以使用屬性平均值填充缺失值。
- 可以使用最可能的值填充缺失值。
噪聲資料 - 噪聲是測量變數中的隨機誤差或方差。處理噪聲的平滑方法如下：
- 分箱法 - 這些方法透過參考其“鄰域”（尤其是噪聲資訊周圍的值）來平滑一系列資料值。排列後的值被分配到多個桶或箱中。由於分箱法參考值鄰域，因此它們實現區域性平滑。
- 迴歸法 - 資料可以透過將資訊擬合到函式（包括迴歸）來平滑。線性迴歸包括找到擬合兩個屬性（或變數）的“最佳”直線，以便可以使用一個屬性來預測另一個屬性。多元線性迴歸是線性迴歸的擴充套件，其中包含兩個以上的屬性，並且資料擬合到多維空間。
- 聚類法 - 聚類有助於識別異常值。相同的值被組織成簇，而落在簇之外的值被稱為異常值。
- 計算機和人工檢查相結合 - 也可以藉助計算機和人工檢查來識別異常值。異常值模式可以是描述性的或垃圾資料。具有驚人值的模式可以輸出到列表中。
不一致資料 - 不一致性可能記錄在各種事務中，在資料輸入過程中，或來自多個數據庫中資訊的整合。一些冗餘可以透過相關性分析來識別。來自不同來源的資料的準確和正確的整合可以減少和避免冗餘。

Ginni

更新於：2021年11月19日

15K+ 瀏覽量

開啟您的職業生涯

完成課程獲得認證

廣告

© . All rights reserved.