倒排索引和正排索引的區別


倒排索引和正排索引是用於搜尋文件或文件集中文字的資料結構。

倒排索引

倒排索引將單詞儲存為索引,並將文件名稱儲存為對映的引用。

正排索引

正排索引將文件名稱儲存為索引,並將單詞儲存為對映的引用。

以下是倒排索引和正排索引之間一些重要的區別。

序號關鍵點倒排索引正排索引
1對映模式倒排索引將單詞儲存為索引,並將文件名稱儲存為對映的引用。正排索引將文件名稱儲存為索引,並將單詞儲存為對映的引用。
2索引構建過程
  • 掃描文件,準備唯一單詞列表。

  • 準備所有唯一單詞的索引列表,並將它們對映到文件搜尋。

  • 對所有文件重複上述步驟。

  • 掃描文件,準備唯一單詞列表。

  • 將所有單詞對映到文件作為索引。

  • 對所有文件重複上述步驟。

3索引在倒排索引中,索引速度較慢,因為在準備索引之前必須檢查每個單詞。在正排索引中,索引速度很快,因為找到關鍵字後會附加。
4搜尋在倒排索引中,搜尋速度很快。在正排索引中,搜尋速度很慢。
5示例
Word Documents
-------------------------
Welcome doc1
Hello doc1, doc3
Hi doc2
-------------------------
Word Documents
-------------------------
doc1 Welcome, Hello
doc2 Hi
doc3 Hello
-------------------------
6重複性在倒排索引中,索引中不儲存重複的關鍵字。在正排索引中,索引中可能存在重複的關鍵字,例如“Hello”。
7現實生活中的例子索引末尾的詞彙表,反向查詢。書籍開頭的目錄,DNS 查詢。

更新於:2020年4月15日

2K+ 瀏覽量

啟動你的職業生涯

完成課程獲得認證

開始學習
廣告
© . All rights reserved.