資料探勘 - 文字資料探勘



文字資料庫包含大量的文件集合。它們從新聞文章、書籍、數字圖書館、電子郵件、網頁等多個來源收集這些資訊。由於資訊量的增加,文字資料庫正在迅速增長。在許多文字資料庫中,資料是半結構化的。

例如,一個文件可能包含一些結構化欄位,例如標題、作者、出版日期等。但除了結構化資料外,文件還包含非結構化文字元件,例如摘要和內容。在不知道文件中可能包含什麼內容的情況下,很難制定有效的查詢來分析和提取資料中的有用資訊。使用者需要工具來比較文件並對其重要性和相關性進行排名。因此,文字挖掘已成為資料探勘中一個流行且重要的主題。

資訊檢索

資訊檢索處理從大量基於文字的文件中檢索資訊。一些資料庫系統通常不存在於資訊檢索系統中,因為兩者處理不同型別的資料。資訊檢索系統的示例包括:

  • 線上圖書館目錄系統
  • 線上文件管理系統
  • 網路搜尋系統等。

注意 - 資訊檢索系統中的主要問題是根據使用者的查詢在文件集合中找到相關的文件。這種使用者的查詢包含一些描述資訊需求的關鍵詞。

在這種搜尋問題中,使用者主動從集合中提取相關資訊。當用戶有臨時資訊需求(即短期需求)時,這是合適的。但如果使用者有長期資訊需求,則檢索系統也可以主動將任何新到達的資訊項推送給使用者。

這種訪問資訊的方式稱為資訊過濾。相應的系統被稱為過濾系統或推薦系統。

文字檢索的基本度量

我們需要檢查系統在根據使用者的輸入檢索多個文件時的準確性。將與查詢相關的文件集表示為{Relevant},將檢索到的文件集表示為{Retrieved}。相關且已檢索到的文件集可以表示為{Relevant} ∩ {Retrieved}。這可以用維恩圖表示如下:

Measures

評估文字檢索質量有三個基本指標:

  • 精確率
  • 召回率
  • F1值

精確率

精確率是檢索到的文件中實際上與查詢相關的文件的百分比。精確率可以定義為:

Precision= |{Relevant} ∩ {Retrieved}| /  |{Retrieved}|

召回率

召回率是與查詢相關的文件中實際上被檢索到的文件的百分比。召回率定義為:

Recall = |{Relevant} ∩ {Retrieved}| /  |{Relevant}|

F1值

F1值是常用的折衷方案。資訊檢索系統通常需要權衡精確率或召回率。F1值定義為召回率或精確率的調和平均數,如下所示:

F-score = recall x precision / (recall + precision) / 2
廣告