什麼是資料清洗?


資料清洗是指透過填充缺失值、平滑噪聲資料、分析和去除異常值以及消除資料不一致性來清理資料。有時,不同層次細節的資料可能與所需資料不同,例如,可能需要20-30歲、30-40歲、40-50歲的年齡範圍,而匯入的資料包含出生日期。可以透過將資料拆分為適當的型別來清理資料。

資料清洗的型別

資料清洗有多種型別,如下所示:

  • 缺失值 - 缺失值用適當的值填充。填充值的方法如下:

    • 如果元組包含多個具有缺失值的屬性,則忽略該元組。

    • 手動填充缺失值。

    • 可以使用相同的全域性常量填充值。

    • 可以使用屬性平均值填充缺失值。

    • 可以使用最可能的值填充缺失值。

  • 噪聲資料 - 噪聲是測量變數中的隨機誤差或方差。處理噪聲的平滑方法如下:

    • 分箱法 - 這些方法透過參考其“鄰域”(尤其是噪聲資訊周圍的值)來平滑一系列資料值。排列後的值被分配到多個桶或箱中。由於分箱法參考值鄰域,因此它們實現區域性平滑。

    • 迴歸法 - 資料可以透過將資訊擬合到函式(包括迴歸)來平滑。線性迴歸包括找到擬合兩個屬性(或變數)的“最佳”直線,以便可以使用一個屬性來預測另一個屬性。多元線性迴歸是線性迴歸的擴充套件,其中包含兩個以上的屬性,並且資料擬合到多維空間。

    • 聚類法 - 聚類有助於識別異常值。相同的值被組織成簇,而落在簇之外的值被稱為異常值。

    • 計算機和人工檢查相結合 - 也可以藉助計算機和人工檢查來識別異常值。異常值模式可以是描述性的或垃圾資料。具有驚人值的模式可以輸出到列表中。

  • 不一致資料 - 不一致性可能記錄在各種事務中,在資料輸入過程中,或來自多個數據庫中資訊的整合。一些冗餘可以透過相關性分析來識別。來自不同來源的資料的準確和正確的整合可以減少和避免冗餘。

更新於:2021年11月19日

15K+ 瀏覽量

開啟您的職業生涯

完成課程獲得認證

開始學習
廣告