什麼是資料量縮減?


在資料量縮減中,透過選擇替代的、更小的資料表示形式來減少資料量。這些技術可能是引數化的或非引數化的。對於引數化方法,使用模型來估計資料,因此只需要儲存資料引數,而不是實際資料,例如對數線性模型。非引數化方法用於儲存資料的縮減表示,包括直方圖、聚類和抽樣。

以下是資料量縮減的技術:

迴歸和對數線性模型 - 這些模型可用於近似給定資料。線上性迴歸中,資料被建模以擬合一條直線。例如,一個隨機變數 y(稱為響應變數)可以被建模為另一個隨機變數 x(稱為預測變數)的線性函式,其方程為 y = wx+b,其中 y 的方差被假定為常數。

對數線性模型 - 這些模型用於近似離散多維機率分佈。給定一組 n 維元組(例如,由 n 個屬性組成),可以將每個元組視為 n 維空間中的一個點。

對數線性模型可用於測量一組離散化屬性的多維空間中每個點的機率,這取決於較小子集的維度組合。這使得能夠從低維空間生成更高維的資料欄位。

直方圖 - 直方圖使用分箱來近似資料分佈,並且是資料縮減的一種著名形式。某個屬性 A 的直方圖將 A 的資料分佈劃分為不相交的子集或桶。如果每個桶僅定義一個單獨的屬性值/頻率對,則這些桶稱為單值桶。

聚類 - 聚類技術將資料元組視為物件。它們將物件劃分為組或簇,以便一個簇中的物件彼此“相似”,而與其他簇中的物件“不同”。它通常根據物件在空間中的“接近程度”來定義,這基於距離函式。

簇的質量可以透過其直徑來定義,即簇中任意兩個物件之間的最大距離。質心距離是簇質量的另一種度量,表示為每個簇物件與其質心之間的平均距離,表示簇區域的“平均物件”或平均點。

抽樣 - 抽樣可用作資料縮減方法,因為它使得可以透過資訊中更小的隨機樣本(或子集)來定義龐大的資料集。

更新於: 2021年11月19日

1K+ 閱讀量

開啟你的職業生涯

透過完成課程獲得認證

開始學習
廣告