非負矩陣分解
介紹
非負矩陣分解 (NMF) 是一種監督演算法,用於將資料表示為更低的維度,這減少了特徵的數量,同時保留了足夠的基本資訊,以便從降低的特徵空間中構建原始矩陣。
在本文中,我們將進一步探討 NMF 及其用途。
非負矩陣分解
NMF 用於降低輸入矩陣或語料庫的維度。它使用因子分析,對不太相關的詞語給予較少的重視。因此,原始矩陣(非負矩陣)的分解產生了兩個非負係數的乘積,其秩低於原始矩陣。
NMF 的重要性
NMF 屬於用於確定隱藏狀態的基於代數的演算法類別。
它可以用於主題建模 TF-IDF。
NMF 可以輕鬆提取稀疏資料和因子。
以下是主題建模中非負矩陣分解的表示
矩陣 1 (H+):主題和詞語
矩陣 3 (W+):文件和主題
NMF 的表示
讓我們有一個形狀為 p x q 的輸入矩陣 M。矩陣分解主題建模將把矩陣 M 分解成兩個形狀為 p x t 和 t x q 的矩陣 R 和 S。
因此,我們有如下所述的三個矩陣。
矩陣 M - 形狀 (p x q) 表示文件詞矩陣
矩陣 R - 形狀 (p x t) 表示詞嵌入矩陣
矩陣 S - 形狀 (t x q) 每個句子中每個詞的權重在每一列中表示
NMF 的數學建模
NMF 是一種無監督的機器學習技術,用於計算元素之間的距離。有多種方法可以計算距離。下面討論了兩種這樣的方法。
KL 散度 - 它用於確定兩個分佈在定量方面的接近程度。因此,如果兩個詞語相似且接近,則 KL 散度的值趨於零,否則它會增加。
KL 散度的通用公式如下所示
$$\mathrm{D_{K\:L}(p(x)||q\left ( x \right ))=\sum _{x\epsilon X}p(x)ln\frac{p(x)}{q(x))}}$$
歐氏距離 - 空間中兩點之間的距離可以表示為
$$\mathrm{d(p,q)=\sqrt{(q_{1}-p_{1})^{2}+(q_{2}-p_{2})^{2}}}$$
非負矩陣分解的優點
在最小化成本函式的同時,它可以處理缺失資料,並且不將缺失資料視為零。
它可以透過將更高複雜度的矩陣分解為低維矩陣來工作。它被認為比 LDA 更好。
結論
非負矩陣分解是一種廣泛使用的降維技術,尤其是在與自然語言和機器學習相關的領域。它比 LDA 等競爭對手更快、更容易且產生更好的結果。
資料結構
網路
關係資料庫管理系統
作業系統
Java
iOS
HTML
CSS
Android
Python
C 程式設計
C++
C#
MongoDB
MySQL
Javascript
PHP