什麼是資料清洗?
資料清洗是指透過填充缺失值、平滑噪聲資料、分析和去除異常值以及消除資料不一致性來清理資料。有時,不同層次細節的資料可能與所需資料不同,例如,可能需要20-30歲、30-40歲、40-50歲的年齡範圍,而匯入的資料包含出生日期。可以透過將資料拆分為適當的型別來清理資料。
資料清洗的型別
資料清洗有多種型別,如下所示:
缺失值 - 缺失值用適當的值填充。填充值的方法如下:
如果元組包含多個具有缺失值的屬性,則忽略該元組。
手動填充缺失值。
可以使用相同的全域性常量填充值。
可以使用屬性平均值填充缺失值。
可以使用最可能的值填充缺失值。
噪聲資料 - 噪聲是測量變數中的隨機誤差或方差。處理噪聲的平滑方法如下:
分箱法 - 這些方法透過參考其“鄰域”(尤其是噪聲資訊周圍的值)來平滑一系列資料值。排列後的值被分配到多個桶或箱中。由於分箱法參考值鄰域,因此它們實現區域性平滑。
迴歸法 - 資料可以透過將資訊擬合到函式(包括迴歸)來平滑。線性迴歸包括找到擬合兩個屬性(或變數)的“最佳”直線,以便可以使用一個屬性來預測另一個屬性。多元線性迴歸是線性迴歸的擴充套件,其中包含兩個以上的屬性,並且資料擬合到多維空間。
聚類法 - 聚類有助於識別異常值。相同的值被組織成簇,而落在簇之外的值被稱為異常值。
計算機和人工檢查相結合 - 也可以藉助計算機和人工檢查來識別異常值。異常值模式可以是描述性的或垃圾資料。具有驚人值的模式可以輸出到列表中。
不一致資料 - 不一致性可能記錄在各種事務中,在資料輸入過程中,或來自多個數據庫中資訊的整合。一些冗餘可以透過相關性分析來識別。來自不同來源的資料的準確和正確的整合可以減少和避免冗餘。
廣告