什麼是文件聚類分析?


文件聚類是一種重要的無監督方式組織檔案的方法。當文件表示為詞向量時,就可以應用聚類方法。文件空間通常具有高維性,維度從幾百到幾千不等。

由於維數災難,將文件投影到低維子空間中是很有意義的,在該子空間中,文件空間的語義結構變得清晰。在低維語義空間中,可以使用傳統的聚類演算法。

文件聚類分析有幾種方法,如下所示:

譜聚類 - 譜聚類方法首先對原始資料進行譜嵌入(降維),然後在降維後的文件空間上應用傳統的聚類演算法(例如,k均值)。

譜聚類能夠處理高度非線性資料(資料空間在每個區域性區域都具有高曲率)。它與微分幾何的強大聯絡使其能夠找到檔案空間的流形結構。

這些譜聚類演算法的侷限性在於它們使用非線性嵌入(降維),這隻能在“訓練”資料上表示。它們必須使用一些資料點來理解嵌入。當資料集很大時,理解這種嵌入在計算上代價很高。這限制了譜聚類在大型資料集上的應用。

混合模型 - 混合模型聚類方法使用混合模型對文字資料進行建模,通常涉及多項式分量模型。聚類涉及以下兩個步驟:

基於文字資料和任何額外的先驗知識估計模型引數。

基於估計的模型引數推斷聚類。根據混合模型的定義,這些方法可以同時對單詞和文件進行聚類。

機率潛在語義分析 (PLSA) 和潛在狄利克雷分配 (LDA) 是此類方法的兩個例子。聚類方法的優點是這些聚類可以被設計為支援檔案的比較分析。

潛在語義索引 (LSI) 和區域性保持索引 (LPI) 方法是線性降維方法。它們用於在 LSI 和 LPI 中獲得變換向量(嵌入函式)。這些嵌入函式在任何地方都有表示;因此,它可以使用資料元素來理解嵌入函式並將一些資料嵌入到低維空間。

LSI 的目標是找到原始文件空間在最小化全域性重建誤差意義上的最佳子空間逼近。換句話說,LSI 試圖發現最具代表性的特徵,而不是文件表示中最具區分性的特徵。因此,LSI 在區分具有不同語義的文件方面可能不是最佳的,而這是聚類的最終目標。

更新於:2022年2月17日

2K+ 次瀏覽

開啟你的職業生涯

完成課程獲得認證

開始學習
廣告