什麼是降維?


在降維中,應用資料編碼或轉換以獲得原始資料的簡化或“壓縮”表示。如果可以從壓縮資料中無任何資訊丟失地重建原始資料,則資料簡化稱為無失真壓縮。如果重建的資料只是原始資料的近似值,則資料簡化稱為有失真壓縮。

有兩種有失真壓縮方法,如下所示:

  • **小波變換** - 離散小波變換 (DWT) 是一種線性訊號處理技術,當應用於資料向量 X 時,將其轉換為數值不同的向量 X’(小波係數)。這兩個向量長度相似。當使用此技術進行資料簡化時,可以將每個元組視為 n 維資料向量,即 𝑋=(x1,x2,…xn),表示對來自 n 個數據庫屬性的元組進行的 n 次測量。

DWT 與離散傅立葉變換 (DFT) 密切相關,DFT 是一種包含正弦和餘弦的訊號處理技術。一般來說,DWT 能夠實現更好的有失真壓縮。也就是說,如果為給定資料向量的 DWT 和 DFT 保留相同數量的係數,則 DWT 版本將提供對原始資料的更準確近似。因此,對於等效的近似,DWT 比 DFT 需要更少的儲存空間。

小波變換可用於多維資料,包括資料立方體。這是透過首先對第一維應用變換,然後對第二維應用變換,依此類推來完成的。涉及的計算複雜度與立方體中的單元數成線性關係。

小波變換在稀疏或傾斜資料以及具有有序屬性的資料上效果良好。據報道,小波的有失真壓縮優於當前商業標準 JPEG 壓縮。小波變換在許多現實世界應用中都有應用,包括指紋影像壓縮、計算機視覺、時間序列資料分析和資料清洗。

  • **主成分分析** - 主成分分析也稱為 Karhunen-Loeve 或 K-L 方法。它可以搜尋 k 個 n 維正交向量,這些向量最適合用於表示資料,其中 k ≤ n。原始資料投影到一個更小的空間上,從而實現降維。它透過建立替代的更小的變數集來組合屬性的本質。原始資料可以投影到這個更小的集合上。

更新於:2021年11月19日

2K+ 次瀏覽

開啟你的職業生涯

完成課程後獲得認證

開始
廣告