非負矩陣分解

機器學習矩陣程式設計

介紹

非負矩陣分解 (NMF) 是一種監督演算法，用於將資料表示為更低的維度，這減少了特徵的數量，同時保留了足夠的基本資訊，以便從降低的特徵空間中構建原始矩陣。

在本文中，我們將進一步探討 NMF 及其用途。

非負矩陣分解

NMF 用於降低輸入矩陣或語料庫的維度。它使用因子分析，對不太相關的詞語給予較少的重視。因此，原始矩陣（非負矩陣）的分解產生了兩個非負係數的乘積，其秩低於原始矩陣。

NMF 的重要性

NMF 屬於用於確定隱藏狀態的基於代數的演算法類別。
它可以用於主題建模 TF-IDF。
NMF 可以輕鬆提取稀疏資料和因子。

以下是主題建模中非負矩陣分解的表示

矩陣 1 (H+)：主題和詞語

矩陣 3 (W+)：文件和主題

NMF 的表示

讓我們有一個形狀為 p x q 的輸入矩陣 M。矩陣分解主題建模將把矩陣 M 分解成兩個形狀為 p x t 和 t x q 的矩陣 R 和 S。

因此，我們有如下所述的三個矩陣。

矩陣 M - 形狀 (p x q) 表示文件詞矩陣

矩陣 R - 形狀 (p x t) 表示詞嵌入矩陣

矩陣 S - 形狀 (t x q) 每個句子中每個詞的權重在每一列中表示

NMF 的數學建模

NMF 是一種無監督的機器學習技術，用於計算元素之間的距離。有多種方法可以計算距離。下面討論了兩種這樣的方法。

KL 散度 - 它用於確定兩個分佈在定量方面的接近程度。因此，如果兩個詞語相似且接近，則 KL 散度的值趨於零，否則它會增加。

KL 散度的通用公式如下所示

$$\mathrm{D_{K\:L}(p(x)||q\left ( x \right ))=\sum _{x\epsilon X}p(x)ln\frac{p(x)}{q(x))}}$$

歐氏距離 - 空間中兩點之間的距離可以表示為

$$\mathrm{d(p,q)=\sqrt{(q_{1}-p_{1})^{2}+(q_{2}-p_{2})^{2}}}$$

非負矩陣分解的優點

在最小化成本函式的同時，它可以處理缺失資料，並且不將缺失資料視為零。
它可以透過將更高複雜度的矩陣分解為低維矩陣來工作。它被認為比 LDA 更好。

結論

非負矩陣分解是一種廣泛使用的降維技術，尤其是在與自然語言和機器學習相關的領域。它比 LDA 等競爭對手更快、更容易且產生更好的結果。

Mithilesh Pradhan

更新於: 2023年3月23日

418 次檢視

開啟你的職業生涯

透過完成課程獲得認證

開始

廣告

© . All rights reserved.