資料預處理的任務有哪些?


資料預處理的主要步驟包括資料清洗、資料整合、資料規約和資料轉換,具體如下:

**資料清洗** − 資料清洗程式透過填充缺失值、平滑噪聲資訊、識別或消除異常值以及解決偏差來“清理”資訊。如果使用者知道資料是髒的,他們不太可能相信某些已被使用的資料探勘結果。

此外,髒資料可能會使挖掘階段混亂,導致輸出不穩定。一些挖掘程式有一些階段用於處理不完整或嘈雜的資訊,但它們並不總是有效的。相反,它們可以專注於防止將資訊過度擬合到正在建模的函式。

**資料整合** − 資料整合是從多個不同來源合併資料的過程。在執行資料整合時,它必須處理資料冗餘、不一致、重複等問題。在資料探勘中,資料整合是一種記錄預處理方法,包括將來自幾個異構資料來源的資料合併成連貫的資料,以保留和提供資料的統一視角。

資料整合在醫療保健行業尤其重要。來自多個患者資料和診所的整合資料透過將來自多個系統的資料整合到單個有益資料的視角中,幫助臨床醫生識別醫療疾病和疾病,從中可以得出有益的見解。

**資料規約** − 資料規約的目標是更簡潔地定義它。當資料量較小時,使用複雜且計算成本高的演算法更容易。資料的減少可以是多行(記錄)方面,也可以是多列(維度)方面。

在降維中,使用資料編碼方案來獲得初始資料的簡化或“壓縮”描述。示例包括資料壓縮方法(例如,小波變換和主成分分析)、屬性子集選擇(例如,去除無關屬性)和屬性構造(例如,從初始集中更改為一小組更有益的屬性)。

在數值規約中,使用替代的、更小的描述來恢復資料,使用引數模型(如迴歸或對數線性模型)或非引數模型(如直方圖、聚類、抽樣或資料聚合)。

**資料轉換** − 在資料轉換中,透過執行彙總或聚合操作,將資料轉換或連結成適用於挖掘的形式。資料轉換包括:

**平滑** − 它可以去除資料中的噪聲。此類技術包括分箱、迴歸和聚類。

**聚合** − 在聚合中,將彙總或聚合服務應用於資料。例如,可以聚合每日銷售資料以計算每月和每年的總金額。此過程通常用於開發資料立方體,以便以多種粒度分析記錄。

更新於:2022年2月17日

4K+ 瀏覽量

啟動您的職業生涯

透過完成課程獲得認證

開始學習
廣告