非負矩陣分解


介紹

非負矩陣分解 (NMF) 是一種監督演算法,用於將資料表示為更低的維度,這減少了特徵的數量,同時保留了足夠的基本資訊,以便從降低的特徵空間中構建原始矩陣。

在本文中,我們將進一步探討 NMF 及其用途。

非負矩陣分解

NMF 用於降低輸入矩陣或語料庫的維度。它使用因子分析,對不太相關的詞語給予較少的重視。因此,原始矩陣(非負矩陣)的分解產生了兩個非負係數的乘積,其秩低於原始矩陣。

NMF 的重要性

  • NMF 屬於用於確定隱藏狀態的基於代數的演算法類別。

  • 它可以用於主題建模 TF-IDF。

  • NMF 可以輕鬆提取稀疏資料和因子。

以下是主題建模中非負矩陣分解的表示

矩陣 1 (H+):主題和詞語

矩陣 3 (W+):文件和主題

NMF 的表示

讓我們有一個形狀為 p x q 的輸入矩陣 M。矩陣分解主題建模將把矩陣 M 分解成兩個形狀為 p x t 和 t x q 的矩陣 R 和 S。

因此,我們有如下所述的三個矩陣。

矩陣 M - 形狀 (p x q) 表示文件詞矩陣

矩陣 R - 形狀 (p x t) 表示詞嵌入矩陣

矩陣 S - 形狀 (t x q) 每個句子中每個詞的權重在每一列中表示

NMF 的數學建模

NMF 是一種無監督的機器學習技術,用於計算元素之間的距離。有多種方法可以計算距離。下面討論了兩種這樣的方法。

  • KL 散度 - 它用於確定兩個分佈在定量方面的接近程度。因此,如果兩個詞語相似且接近,則 KL 散度的值趨於零,否則它會增加。

  • KL 散度的通用公式如下所示

$$\mathrm{D_{K\:L}(p(x)||q\left ( x \right ))=\sum _{x\epsilon X}p(x)ln\frac{p(x)}{q(x))}}$$

  • 歐氏距離 - 空間中兩點之間的距離可以表示為

$$\mathrm{d(p,q)=\sqrt{(q_{1}-p_{1})^{2}+(q_{2}-p_{2})^{2}}}$$

非負矩陣分解的優點

  • 在最小化成本函式的同時,它可以處理缺失資料,並且不將缺失資料視為零。

  • 它可以透過將更高複雜度的矩陣分解為低維矩陣來工作。它被認為比 LDA 更好。

結論

非負矩陣分解是一種廣泛使用的降維技術,尤其是在與自然語言和機器學習相關的領域。它比 LDA 等競爭對手更快、更容易且產生更好的結果。

更新於: 2023年3月23日

418 次檢視

開啟你的 職業生涯

透過完成課程獲得認證

開始
廣告

© . All rights reserved.