資料探勘中聚類的要求是什麼？

資料探勘資料庫資料結構

資料探勘中聚類有以下要求：

可擴充套件性 - 一些聚類演算法在小型資料集上效果良好，包括少於數百個資料物件。一個大型資料庫可能包含數百萬個物件。對給定大型資料集的樣本進行聚類會導致部分結果。需要高度可擴充套件的聚類演算法。

能夠處理不同型別的屬性 - 一些演算法被設計用於對基於區間的（數值）資訊進行聚類。但是，應用程式可能需要對多種型別的資料進行聚類，包括二元資料、分類（名義）資料和序數資料，或這些資料型別的組合。

發現任意形狀的簇 - 一些聚類演算法根據歐幾里德或曼哈頓距離度量來確定簇。依賴於此類距離度量的演算法傾向於發現大小和密度相同的球形簇。但是，簇可以是任何形狀。必須開發能夠識別任意形狀簇的演算法。

對確定輸入引數的領域知識的要求最少 - 一些聚類演算法需要使用者在聚類分析中輸入特定的引數（包括所需的簇數）。聚類結果可能對輸入引數絕對敏感。引數難以確定，尤其是在包含高維物件的資料集的情況下。這不僅給使用者帶來任務，而且還使聚類質量難以控制。

能夠處理噪聲資料 - 大多數現實世界的資料庫都包含異常值或缺失、未知或錯誤的資訊。某些聚類演算法對這種資料很敏感，並可能導致質量較差的簇。

增量聚類和對輸入記錄順序的不敏感性 - 一些聚類演算法無法將新插入的資訊（即資料庫更新）包含到當前的聚類結構中，而是必須從頭開始確定新的聚類。

一些聚類演算法對輸入記錄的順序敏感。給定一組資料物件，包括演算法可以返回截然不同的聚類，具體取決於輸入物件的呈現順序。必須開發增量聚類演算法和對輸入順序不敏感的演算法。

高維性 - 資料庫或資料倉庫可能包含多個維度或屬性。一些聚類演算法擅長管理低維資料，僅包含兩個到三個維度。人眼最擅長確定最多三個維度的聚類質量。它用於查詢高維空間中資料物件的簇很複雜，尤其是在處理此類資料可能不足且高度傾斜的情況下。

Ginni

更新於： 2021年11月24日

7K+ 瀏覽量

開啟你的職業生涯

透過完成課程獲得認證

廣告

© . All rights reserved.