聚類演算法的特徵是什麼?
聚類演算法有各種特徵,如下所示:
順序依賴性 - 對於某些演算法,產生的特徵和簇的數量可能會根據處理資料的順序而變化,甚至可能發生劇烈變化。雖然阻止此類演算法似乎是可取的,但有時順序依賴性是關聯性的次要的,或者演算法可能具有一些理想的特徵。
非確定性 - 包括 K 均值在內的聚類演算法不依賴於順序,但它們在每次執行時都會產生不同的結果,因為它們基於需要隨機選擇的初始化步驟。由於簇的特徵可能在每次執行之間發生變化,因此可能需要進行多次執行。
可擴充套件性 - 資料集包含數千個物件的情況並不少見,用於此類資料集的聚類演算法必須具有線性或接近線性的時間和空間複雜度。
即使複雜度為 $\mathrm{O(m^2)}$ 的演算法也不適用於大型資料集。此外,資料集的聚類技術不能假設所有資料都適合主記憶體或資料元素可以隨機訪問。此類演算法對於大型資料集是不可行的。
引數選擇 - 一些聚類演算法具有一到多個引數,需要由使用者指定。選擇適當的值可能很複雜,因此,總體態度是“引數越少越好”。如果引數的微小變化會改變聚類結果,則選擇引數值會變得更加複雜。
最後,除非支援用於確定引數值的流程(可能包含使用者輸入),否則演算法的使用者將不得不使用試錯法來查詢相關的引數值。
將聚類問題轉換為另一個領域 - 一些聚類技術採取的一種方法是將聚類問題對映到另一個領域的某個問題。基於圖的聚類將發現簇的任務對映到將鄰近圖劃分為連線元件的任務。
將聚類視為最佳化問題 - 聚類被視為一個最佳化問題:以一種最大化所得簇集的質量(由使用者定義的目標函式計算)的方式將點劃分為簇。
例如,K 均值聚類演算法試圖找到最小化每個點與其最近的簇質心之間平方距離之和的簇集。此類問題可以透過列舉一些可能的簇集並選擇目標函式值最好的簇集來解決,但這 種窮舉方法在計算上是不可行的。