資料探勘中分類和預測的各種問題是什麼?


以下是可用於資料預處理的步驟,以促進提高分類或預測階段的準確性、有效性和可擴充套件性:

  • 資料清洗 - 這定義了資料預處理以透過使用平滑方法和處理缺失值(例如,透過用該屬性中最常見的值或基於統計的最佳可能值來恢復缺失值)來消除或減少噪聲。儘管各種分類演算法都有一些處理噪聲或缺失資訊的機制,但這一步可以幫助減少學習過程中的混淆。

  • 相關性分析 - 資料中存在許多屬性可能與分類或預測任務無關。例如,記錄銀行貸款軟體填寫日期的資料不太可能與軟體的成功相關。此外,一些不同的屬性可能是冗餘的。

    因此,可以對資料進行相關性分析,以從學習過程中刪除一些不相關或冗餘的屬性。在機器學習中,此步驟稱為特徵選擇。它包含那些可能會減慢速度並可能誤導學習步驟的屬性。

    正確地,在相關性分析上花費的時間,當與從生成的“減少”特徵子集學習上花費的時間相加時,必須小於在初始特徵集上學習所花費的時間。因此,這種分析可以幫助提高分類效率和可擴充套件性。

  • 資料轉換 - 資料可以被概括為一個更高級別的視角。概念層次結構可以用於這些目標。這對於連續值屬性尤其有用。例如,屬性收入的數值可以概括為包括低、中、高在內的離散欄位。同樣,名義值屬性,例如街道,可以概括為更高級別的概念,例如城市。

    因為泛化縮短了初始訓練資料,所以學習過程中可以包含更少的輸入/輸出操作。當在學習步驟中使用神經網路或包含距離測量的技術時,資料也可以被標準化。

    標準化包括縮放給定屬性的所有值,以便它們落在一個小指定的範圍內,例如 -1.0 到 1.0,或 0 到 1.0。在應用距離測量的這些方法中,例如,這可以避免具有原始高範圍(例如,收入)的屬性從

更新於:2021年11月22日

11K+ 次瀏覽

啟動您的職業生涯

透過完成課程獲得認證

開始學習
廣告