文字檢索的方法有哪些?


文字檢索是將非結構化文字轉換為結構化格式以識別有意義的模式和新見解的過程。透過使用先進的分析技術,包括樸素貝葉斯、支援向量機 (SVM) 和其他深度學習演算法,組織能夠探索和發現其非結構化資料中的隱藏關係。文字檢索主要有兩種方法:

文件選擇 − 在文件選擇方法中,查詢被視為選擇相關文件的約束條件。此類別的常用方法是布林檢索模型,其中文件由一組關鍵詞定義,使用者提供關鍵詞的布林表示式,例如“汽車和修理店”、“茶或咖啡”或“資料庫系統但不是 Oracle”。

檢索系統可以接收此類布林查詢並返回滿足布林表示式的記錄。由於使用布林查詢精確規定使用者所需資料很複雜,因此布林檢索技術通常只有在使用者非常瞭解文件集並能夠以這種方式制定最佳查詢時才能很好地工作。

文件排序 − 文件排序方法使用查詢按適用性順序對所有記錄進行排序。對於普通使用者和探索性查詢,這些技術比文件選擇方法更適用。大多數當前的資料檢索系統都會響應使用者的關鍵詞查詢,返回一個排序的檔案列表。

有幾種排序方法基於大量的數值基礎,例如代數、邏輯、機率和統計。所有這些技術背後的共同直覺是,它可以將查詢中的關鍵詞與記錄中的關鍵詞連線起來,並根據記錄與查詢匹配的程度對每個記錄進行評分。

目標是根據包括文件中詞頻和整個集合中的詞頻在內的一些資訊計算出的分數來近似記錄的相關程度。很難精確衡量關鍵詞集之間的相關程度。例如,很難量化資料探勘和資料分析之間的距離。

此方法最流行的方法是向量空間模型。向量空間模型的基本思想如下:它可以將文件和查詢都表示為與所有關鍵詞相對應的高維空間中的向量,並使用適當的相似性度量來評估查詢向量和記錄向量之間的相似性。然後,相似性值可用於對文件進行排序。

更新於:2021年11月25日

4K+ 次瀏覽

開啟你的職業生涯

完成課程獲得認證

開始學習
廣告