聚類的應用有哪些?


聚類有各種各樣的應用,如下所示:

  • 可擴充套件性 - 一些聚類演算法在小型資料集(包括少於200個數據物件)中執行良好;然而,大型資料庫可能包含數百萬個物件。對給定大型資料集樣本進行聚類可能會導致結果偏差。需要高度可擴充套件的聚類演算法。

  • 處理不同型別屬性的能力 - 一些演算法旨在對基於區間的(數值)記錄進行聚類。但是,應用程式可能需要對幾種型別的資料進行聚類,包括二進位制資料、分類(名義)資料和有序資料,或這些資料型別的組合。

  • 發現任意形狀的聚類 - 一些聚類演算法根據歐幾里德距離或曼哈頓距離度量來確定聚類。基於此類距離度量的演算法傾向於發現大小和密度相同的球形聚類。但是,聚類可以是任何形狀。必須開發能夠識別任意形狀聚類的演算法。

  • 對確定輸入引數的領域知識的要求最小 - 一些聚類演算法需要使用者在聚類分析中輸入特定引數(包括所需聚類的數量)。聚類結果對輸入引數非常敏感。引數很難確定,特別是對於包含高維物件的資料集。這不僅給使用者帶來負擔,而且也使聚類質量難以控制。

  • 處理噪聲資料的能力 - 一些現實世界的資料庫包含異常值或缺失、未知或錯誤的記錄。一些聚類演算法對這類資料敏感,並可能導致質量差的聚類。

  • 對輸入記錄順序不敏感 - 一些聚類演算法對輸入資料的順序有響應,例如,相同的資料集,當以多種順序呈現給這種演算法時,它可以生成截然不同的聚類。必須開發對輸入順序沒有響應的演算法。

  • 高維性 - 資料庫或資料倉庫可以包含多個維度或屬性。一些聚類演算法最擅長管理低維資料,只包含兩到三個維度。人眼最擅長確定最多三個維度的聚類質量。在高維空間中對資料物件進行聚類是有爭議的,特別是考慮到高維空間中的資料可能非常不足並且高度失真。

  • 基於約束的聚類 - 現實世界的應用程式可能需要在幾種型別的約束下執行聚類。假設你的工作是在城市中為一定數量的新型自動取款機 (ATM) 選擇區域。

更新於:2021年11月24日

3K+ 次瀏覽

開啟你的職業生涯

透過完成課程獲得認證

開始學習
廣告