Lucene - 分析



在我們之前的一個章節中,我們已經看到,Lucene 使用IndexWriter 根據分析器來分析文件,然後根據要求建立/開啟/編輯索引。在本章中,我們將討論分析過程中使用的各種型別的分析器物件和其他相關物件。瞭解分析過程以及分析器如何工作,將讓你深入瞭解 Lucene 如何為文件建立索引。

以下是我們將在適當的時候討論的物件列表。

序號 類和描述
1 Token

Token 表示文字或文件中的單詞,幷包含相關詳細資訊,如元資料(位置、起始偏移量、結束偏移量、Token 型別及其位置增量)。

2 TokenStream

TokenStream 是分析過程的輸出,它包含一系列 Token。它是一個抽象類。

3 Analyzer

這是每種分析器的一個抽象基類。

4 WhitespaceAnalyzer

此分析器根據空格拆分文件中的文字。

5 SimpleAnalyzer

此分析器根據非字母字元拆分文件中的文字,並將文字轉換為小寫。

6 StopAnalyzer

此分析器的行為就像 SimpleAnalyzer,並會刪除常用單詞,如'a', 'an', 'the', 等。

7 StandardAnalyzer

這是最複雜的分析器,它能夠處理姓名、電子郵件地址等。它使每個 Token 變為小寫,並刪除常用單詞和標點符號(如果有)。

廣告
© . All rights reserved.