- Gensim 教程
- Gensim - 首頁
- Gensim - 簡介
- Gensim - 快速入門
- Gensim - 文件與語料庫
- Gensim - 向量與模型
- Gensim - 建立詞典
- 建立詞袋 (BoW) 語料庫
- Gensim - 變換
- Gensim - 建立 TF-IDF 矩陣
- Gensim - 主題建模
- Gensim - 建立 LDA 主題模型
- Gensim - 使用 LDA 主題模型
- Gensim - 建立 LDA Mallet 模型
- Gensim - 文件與 LDA 模型
- Gensim - 建立 LSI 和 HDP 主題模型
- Gensim - 開發詞嵌入
- Gensim - Doc2Vec 模型
- Gensim 有用資源
- Gensim - 快速指南
- Gensim - 有用資源
- Gensim - 討論
Gensim - 簡介
本章將幫助您瞭解 Gensim 的歷史和特性,以及其用途和優勢。
什麼是 Gensim?
Gensim = “Generate Similar” 是一個流行的開源自然語言處理 (NLP) 庫,用於無監督主題建模。它使用頂尖的學術模型和現代統計機器學習來執行各種複雜的任務,例如:
- 構建文件或詞向量
- 語料庫
- 執行主題識別
- 執行文件比較(檢索語義相似的文件)
- 分析純文字文件的語義結構
除了執行上述複雜任務外,Gensim 使用 Python 和 Cython 實現,旨在透過資料流和增量線上演算法處理大型文字集合。這使其不同於那些僅針對記憶體內處理的機器學習軟體包。
歷史
2008 年,Gensim 最初是一組用於捷克數字數學的各種 Python 指令碼的集合。在那裡,它用於生成與特定給定文章最相似的文章的簡短列表。但在 2009 年,RARE Technologies Ltd. 釋出了其初始版本。然後,在 2019 年 7 月,我們得到了其穩定版本 (3.8.0)。
各種特性
以下是 Gensim 提供的一些特性和功能:
可擴充套件性
Gensim 可以透過使用其增量線上訓練演算法輕鬆處理大型和網路規模的語料庫。它本質上是可擴充套件的,因為不需要整個輸入語料庫在任何時間都完全駐留在隨機存取記憶體 (RAM) 中。換句話說,其所有演算法在語料庫大小方面都是記憶體獨立的。
健壯性
Gensim 本質上是健壯的,並且已被各種人員和組織在各種系統中使用了四年多。我們可以輕鬆插入我們自己的輸入語料庫或資料流。它也很容易擴充套件到其他向量空間演算法。
平臺無關性
眾所周知,Python 是一種非常通用的語言,作為純 Python 的 Gensim 可以在所有支援 Python 和 NumPy 的平臺(如 Windows、Mac OS、Linux)上執行。
高效的多核實現
為了加快機器叢集上的處理和檢索速度,Gensim 提供了各種流行演算法的高效多核實現,例如潛在語義分析 (LSA)、潛在狄利克雷分配 (LDA)、隨機投影 (RP)、層次狄利克雷過程 (HDP)。
開源和豐富的社群支援
Gensim 採用 OSI 批准的 GNU LGPL 許可證,允許免費用於個人和商業用途。對 Gensim 做出的任何修改都會被開源,並且擁有豐富的社群支援。
Gensim 的用途
Gensim 已在超過一千個商業和學術應用程式中使用和引用。它也被各種研究論文和學生論文引用。它包括以下內容的流式並行實現:
fastText
fastText 使用神經網路進行詞嵌入,是一個用於學習詞嵌入和文字分類的庫。它由 Facebook 的人工智慧研究 (FAIR) 實驗室建立。此模型基本上允許我們建立一個監督或無監督演算法來獲取單詞的向量表示。
Word2vec
Word2vec 用於生成詞嵌入,是一組淺層和兩層神經網路模型。這些模型基本上經過訓練以重建單詞的語言上下文。
LSA(潛在語義分析)
它是自然語言處理 (NLP) 中的一種技術,允許我們分析一組文件及其包含的術語之間的關係。這是透過生成與文件和術語相關的一組概念來完成的。
LDA(潛在狄利克雷分配)
它是 NLP 中的一種技術,允許透過未觀察到的組來解釋觀察集。這些未觀察到的組解釋了為什麼資料的一些部分是相似的。這就是它是一個生成統計模型的原因。
tf-idf(詞頻-逆文件頻率)
tf-idf 是資訊檢索中的一個數值統計量,反映了一個詞對語料庫中一篇文件的重要性。搜尋引擎經常使用它來根據使用者查詢對文件的相關性進行評分和排名。它還可以用於文字摘要和分類中的停用詞過濾。
所有這些都將在接下來的章節中詳細解釋。
優勢
Gensim 是一個進行主題建模的 NLP 包。Gensim 的重要優勢如下:
我們可能會在其他包(如‘scikit-learn’ 和‘R’)中獲得主題建模和詞嵌入的功能,但 Gensim 提供的構建主題模型和詞嵌入的功能是無與倫比的。它還為文字處理提供了更方便的功能。
Gensim 的另一個最重要的優勢是,它允許我們處理大型文字檔案,即使不將整個檔案載入到記憶體中。
Gensim 不需要昂貴的註釋或文件的手動標記,因為它使用無監督模型。