什麼是資訊檢索?


資訊檢索 (IR) 是一個與資料庫系統並行發展多年的領域。與專注於結構化資料查詢和事務處理的資料庫系統領域不同,資訊檢索關注的是從多個基於文字的文件中組織和檢索資料。

由於資訊檢索和資料庫系統分別處理不同型別的資料,因此資料庫系統中的一些問題通常不會出現在資訊檢索系統中,例如併發控制、恢復、事務管理和更新。還有一些常見的資訊檢索問題通常不會在傳統的資料庫系統中遇到,例如非結構化文件、基於關鍵詞的近似搜尋以及相關性的概念。

由於文字資料的豐富性,資訊檢索發現了許多應用。存在多個資訊檢索系統,包括線上圖書館目錄系統、線上記錄管理系統以及目前發展起來的網路搜尋引擎。

一個一般的資料檢索問題是根據使用者的查詢在文件集中定位相關的文件,查詢通常是一些定義資訊需求的關鍵詞,但也可能是相關記錄的示例。

當用戶有一些臨時(即短期)的資料需求時,這是最合適的,包括查詢購買二手車的資料。當用戶有長期資料需求(例如研究人員的興趣)時,檢索系統還可以主動向使用者“推送”任何新到達的資料元素,如果該元素被判斷為與使用者的資料需求相關。

評估文字檢索質量有兩個基本指標,如下所示:

**精確率** - 這是實際與查詢相關的檢索資料的百分比(即“正確”響應)。其形式表示為

$$precision=\frac{|\left\{ Relevant \right\}\cap\left\{ Retrieved \right\}|}{|\left\{ Retrieved \right\}|}$$

**召回率** - 這是與查詢相關且實際檢索到的記錄的百分比。其形式表示為

$$recall=\frac{|\left\{ Relevant \right\}\cap\left\{ Retrieved \right\}|}{|\left\{ Relevant \right\}|}$$

資訊檢索系統通常需要在召回率和精確率之間進行權衡。一個常用的權衡方法是F-分數,表示為召回率和精確率的調和平均值:

$$F\underline{}score=\frac{recall \times precision }{(recall+precision)^{2}}$$

調和平均值會影響過度犧牲一項指標來換取另一項指標的系統。精確率、召回率和F-分數是檢索到的記錄集合的基本度量。這三個度量通常不適用於比較兩個排序的檔案列表,因為它們對檢索集中文件的內部排序不敏感。

更新於:2021年11月25日

2K+ 次瀏覽

開啟你的職業生涯

透過完成課程獲得認證

開始學習
廣告
© . All rights reserved.