什麼是BIRCH?


BIRCH 代表基於層次結構的平衡迭代規約和聚類。它旨在透過整合層次聚類和其他聚類方法(包括迭代分割槽)來聚類大量數值記錄。

BIRCH 提供了兩個概念,聚類特徵和聚類特徵樹 (CF 樹),用於總結聚類描述。這些結構使聚類方法能夠在大型資料庫中獲得最佳速度和可擴充套件性,並且使其能夠有效地對傳入物件的增量和動態聚類。

給定一個聚類中的 n 個 d 維資料物件或點,它可以表示聚類的質心 x0、半徑 R 和直徑 D,如下所示:

$$x_{0}=\frac{\sum_{i=1}^{n}x_{i}}{n}$$

$$R=\sqrt{\frac{\sum_{i=1}^{n}(x_{i}-x_{0})^{2}}{n}}$$

$$D=\sqrt{\frac{\sum_{i=1}^{n}\sum_{j=1}^{n}(x_{i}-x_{j})^{2}}{n(n-1)}}$$

其中 R 是成員元素到質心的平均距離,D 是聚類內部的平均成對距離。R 和 D 都反映了聚類圍繞質心的緊密程度。聚類特徵 (CF) 是一個三維向量,總結了有關物件聚類的資料。給定一個聚類中的 n 個 d 維物件或點,{xi},則聚類的 CF 表示為

CF=(n,LL,SS)

其中 n 是聚類中點的數量,LS 是 n 個點的線性總和 $\sum_{i=1}^{n}(x_{i})$,SS 是資料點的平方和(即 $\sum_{i=1}^{n}x_{i}^{2}$)

聚類特徵是對給定聚類統計資料的總結:從統計學的角度來看,聚類的零階矩、一階矩和二階矩。聚類特徵是一種補充。例如,假設我們有兩個不相交的聚類,C1 和 C2,分別持有聚類特徵 CF1 和 CF2。由 C1 和 C2 組合形成的聚類的聚類特徵只是 CF1 +CF2。

聚類特徵足以計算 BIRCH 中用於制定聚類決策的所有度量。BIRCH 透過使用聚類特徵來總結有關物件聚類的資料,從而有效地利用儲存,從而避免了儲存所有物件的需要。

CF 樹是一種高度平衡的樹,它儲存用於層次聚類的聚類特徵。樹中的非葉節點具有後代或“子節點”。非葉節點儲存其子節點的 CF 的總和,因此總結了有關其子節點的聚類資料。

CF 樹有兩個引數,包括分支因子 B 和閾值 T。分支因子定義了每個非葉節點的最大子節點數。閾值引數定義了儲存在樹的葉節點處的子聚類的最大直徑。這兩個引數控制著生成的樹的大小。

更新於: 2021年11月25日

1K+ 次檢視

開啟你的 職業生涯

完成課程獲得認證

開始學習
廣告

© . All rights reserved.