文字索引的技術有哪些?


有幾種流行的文字檢索索引技術,例如倒排索引和簽名檔案。

倒排索引 − 倒排索引是一種索引結構,它維護兩個雜湊索引或B+樹索引表:document_table 和 term_table,其中 document_table 包含一組文件記錄,每個記錄包含兩個欄位:doc_id 和 posting_list,其中 posting_list 是出現在文件中的一系列方法(或指向方法的指標)的列表,根據某種相關性度量排列。

term_table 包含一組術語記錄,每個記錄包含兩個欄位:term_id 和 posting_list,其中 posting_list 指定術語出現的記錄識別符號列表。

它可以查詢與給定術語集相關的所有文件。它用於查詢與給定文件集相關的所有術語。例如,要查詢與一組術語相關的所有文件,我們可以首先在術語表中為每個術語找到一個文件識別符號列表,然後將其相交以獲得相關記錄的集合。

倒排索引廣泛應用於市場。它們易於執行。釋出列表可能很長,導致儲存需求相當大。它們易於實現,但在管理同義詞(兩個截然不同的詞可能有相同的含義)和多義詞(一個詞可能有幾種含義)方面並不令人滿意。

簽名檔案是一個檔案,它儲存資料庫中每個記錄的簽名資料。每個簽名都有一個常數大小為 b 位的定義術語。一個簡單的編碼設計如下所示。記錄簽名的每一位都從 0 開始。

如果它定義的術語出現在記錄中,則將一位設定為 1。簽名 S1 與另一個簽名 S2 匹配,如果 S2 中設定的每一位也在 S1 中設定。因為通常術語比可用位多,所以多個術語可以對映到相同的位。

這種多對一的對映使搜尋變得昂貴,因為連線查詢簽名的記錄不一定包含查詢的關鍵字集。必須檢索、解析、詞幹化和測試記錄。可以透過首先實現頻率分析、詞幹化和過濾停用詞,然後利用雜湊方法和疊加編碼技術將方法列表編碼為位表示來進行改進。

更新於:2021年11月25日

2K+ 次瀏覽

開啟你的職業生涯

完成課程獲得認證

開始學習
廣告
© . All rights reserved.