什麼是資料降維?
資料探勘應用於大型資料庫中的選定資料。當對大量資料進行資料分析和挖掘時,處理需要很長時間,這使得它變得不切實際且不可行。它可以減少資料分析的處理時間,資料降維技術用於獲取資料集的縮減表示,該表示在體積上要小得多,同時保持原始資料的完整性。透過減少資料,可以提高資料探勘過程的效率,從而產生相同的分析結果。
資料降維旨在更簡潔地定義它。當資料大小較小時,應用複雜且計算成本高的演算法會更容易。資料的減少可以是行數(記錄)方面,也可以是列數(維度)方面。
資料降維有各種策略,如下所示:
資料立方體聚合 - 在此方法中,聚合操作用於資料立方體的構建資料。這些資料包括 2002 年至 2004 年期間每個季度的所有電子產品銷售額。它對年度銷售額(每年總計)感興趣,而不是每個季度的總計。因此,可以聚合資料,以便結果資料彙總每年的總銷售額而不是每個季度的總銷售額。結果資料集的體積較小,並且沒有丟失對分析任務必不可少的資料。
屬性子集選擇 - 在此方法中,可以發現並刪除不相關、弱相關或冗餘的屬性或維度。用於分析的資料集可能包含數百個屬性,其中一些屬性可能與挖掘任務無關或冗餘。例如,如果任務是根據客戶是否可能在收到促銷資訊時購買 All Electronics 上的一張熱門新 CD 來對客戶進行分類,則諸如客戶電話號碼之類的屬性可能不相關,而諸如年齡或音樂品味之類的屬性則可能相關。
降維 - 使用編碼機制來減少資料集的大小。在降維中,應用資料編碼或轉換以獲得原始資料的縮減或“壓縮”表示。如果可以從壓縮資料中重建原始資料而不會丟失任何資訊,則資料縮減稱為無損。
數值縮減 - 資料透過替代的、更小的資料表示來恢復或預測,包括引數模型(只需要儲存模型引數而不是實際資料)或非引數方法,包括聚類、抽樣和直方圖的使用。
離散化和概念層次結構生成 - 在此方法中,屬性的原始資料值被替換為範圍或更高的概念級別。資料離散化是一種數值縮減形式,對於自動生成概念層次結構非常有用。離散化和概念層次結構生成是資料探勘的動態工具,因為它們允許在不同抽象級別上挖掘資料。