什麼是資料特徵？

資料探勘資料庫資料結構

以下是強烈影響聚類分析的資料的一些特徵：

高維性——在高維資料集裡，傳統的歐幾里得密度概念（單位體積內的點數）變得非常重要。可以認為，隨著維數的增加，體積呈指數增長，除非點數也隨維數呈指數增長，否則密度趨於0。

它還會導致高維空間中的距離趨於均勻。另一種考慮這一事實的方法是，有更多維度（屬性）影響兩點之間的距離，這使得距離趨於更加均勻。

因為大多數聚類技術都依賴於距離或密度，所以它們在處理高維資料時可能會有困難。解決此類問題的一種方法是採用降維方法。

規模——一些在小型或中型資料集上執行良好的聚類演算法無法處理更大的資料集。

稀疏性——稀疏資料包含非對稱屬性，其中零值不如非零值重要。因此，通常使用適合非對稱屬性的相似性度量。

噪聲和離群值——一個異常點（離群值）會嚴重降低聚類演算法的效能，特別是基於原型的演算法，例如K均值演算法。換句話說，噪聲會導致某些演算法（例如單鏈接演算法）將不應該合併的聚類合併在一起。

通常，在使用聚類演算法之前會先使用去除噪聲和離群值的演算法。此外，某些演算法可以在聚類階段識別定義噪聲和離群值的點，然後將其移除或以其他方式消除其負面影響。

屬性和資料集的型別——資料集可以有多種型別，包括結構化、圖或有序資料，而屬性可以是分類的（名義或序數）或定量的（區間或比率），並且可以是二元、離散或連續的。

多種距離和密度度量適用於多種型別的資料。在許多情況下，可能需要對資料進行離散化或二值化，以便可以使用所需的距離度量或聚類演算法。

當屬性型別多種多樣時，例如連續型和名義型，會出現另一個困難。在這種情況下，距離和密度更難以定義，並且更加特例化。最後，可能需要特定的資料結構和演算法來有效地處理某些型別的資料。

尺度——諸如身高和體重之類的多個屬性，可以使用不同的尺度進行測量。這些差異會強烈影響兩個物件之間的距離或相似性，進而影響聚類分析的結果。考慮根據以米為單位計算的身高和以千克為單位計算的體重對一組人進行聚類。

吉尼

更新於：2022年2月14日

2K+ 瀏覽量

啟動你的職業生涯

透過完成課程獲得認證

開始

廣告

© . All rights reserved.