資料探勘中聚類的要求是什麼?
資料探勘中聚類有以下要求:
可擴充套件性 - 一些聚類演算法在小型資料集上效果良好,包括少於數百個資料物件。一個大型資料庫可能包含數百萬個物件。對給定大型資料集的樣本進行聚類會導致部分結果。需要高度可擴充套件的聚類演算法。
能夠處理不同型別的屬性 - 一些演算法被設計用於對基於區間的(數值)資訊進行聚類。但是,應用程式可能需要對多種型別的資料進行聚類,包括二元資料、分類(名義)資料和序數資料,或這些資料型別的組合。
發現任意形狀的簇 - 一些聚類演算法根據歐幾里德或曼哈頓距離度量來確定簇。依賴於此類距離度量的演算法傾向於發現大小和密度相同的球形簇。但是,簇可以是任何形狀。必須開發能夠識別任意形狀簇的演算法。
對確定輸入引數的領域知識的要求最少 - 一些聚類演算法需要使用者在聚類分析中輸入特定的引數(包括所需的簇數)。聚類結果可能對輸入引數絕對敏感。引數難以確定,尤其是在包含高維物件的資料集的情況下。這不僅給使用者帶來任務,而且還使聚類質量難以控制。
能夠處理噪聲資料 - 大多數現實世界的資料庫都包含異常值或缺失、未知或錯誤的資訊。某些聚類演算法對這種資料很敏感,並可能導致質量較差的簇。
增量聚類和對輸入記錄順序的不敏感性 - 一些聚類演算法無法將新插入的資訊(即資料庫更新)包含到當前的聚類結構中,而是必須從頭開始確定新的聚類。
一些聚類演算法對輸入記錄的順序敏感。給定一組資料物件,包括演算法可以返回截然不同的聚類,具體取決於輸入物件的呈現順序。必須開發增量聚類演算法和對輸入順序不敏感的演算法。
高維性 - 資料庫或資料倉庫可能包含多個維度或屬性。一些聚類演算法擅長管理低維資料,僅包含兩個到三個維度。人眼最擅長確定最多三個維度的聚類質量。它用於查詢高維空間中資料物件的簇很複雜,尤其是在處理此類資料可能不足且高度傾斜的情況下。