相似度度量的應用是什麼?


相似度度量提供了某些資料探勘決策所依據的框架。分類和聚類等任務通常會考慮某些相似度度量是否存在,而缺乏評估相似度的有效技術的領域通常會發現資訊搜尋是一個繁瑣的功能。

相似度度量有以下幾個應用:

**資訊檢索** - 資訊檢索 (IR) 系統的目標是滿足使用者的需求。換句話說,需求通常以線上搜尋引擎文字框中輸入的簡短文字查詢的形式表現出來。IR 系統通常不會直接回答查詢,而是提供一個排名列表,其中包含一些被某些相似度度量判斷為與該查詢相關的記錄。

由於相似度度量具有聚類和分類有關查詢的資訊的效果,因此使用者通常會發現其資訊需求的新解釋,這些解釋在重新制定其查詢時可能對他們有用,也可能對他們無用。

在查詢是初始集合中記錄的情況下,相似度度量可用於聚類和分類集合中的記錄。簡而言之,相似度度量可以為以前未結構化的集合插入一個基本的架構。

動機

在 IR 系統中使用的相似度度量可能會扭曲人們對整個資料集的感知。例如,如果使用者在搜尋引擎中輸入查詢,並且在返回的前十個網頁中沒有找到令人滿意的答案,那麼他們通常會嘗試一兩次重新制定此查詢。

經典的相似度度量

相似度度量被定義為從大小為 k 的一對元組到標量數的對映。按照慣例,所有相似度度量都必須對映到範圍 [-1, 1] 或 [0, 1],其中相似度得分為 1 表示最大相似度。相似度度量應表現出其值隨著比較的兩個專案中多個屬性的增加而增加的特徵。

Dice 係數

Dice 係數是精確率和召回率度量調和平均數的推廣。從理論上講,具有高調和平均數的系統更接近理想的檢索系統,因為它可以在高召回率水平上管理高精確率值。精確率和召回率的調和平均數由下式給出:

$$E=\frac{2}{\frac{1}{P}+\frac{1}{R}}$$

而 Dice 係數表示為:

$$sim(d,d_{j})=D(A,B)=\frac{|A\cap B|}{\alpha|A|+(1-\alpha)|B|}\cong \frac{\propto \sum_{k=1}^{n}w_{kq}w_{kj}}{\propto \sum_{k=1}^{n}\mathrm{w}_{kq}^{2}+(1-\propto)\sum_{k=1}^{n}\mathrm{w}_{kj}^{2}}$$

其中 α ε [0, 1]。可以看出 Dice 係數是加權調和平均數,令 α = ½。

重疊係數

重疊係數試圖確定兩個集合重疊的程度。重疊係數的比較如下:

$$sim(d,d_{j})=D(A,B)=\frac{|A\cap B|}{min(|A|,|B|)}\cong \frac{\propto \sum_{k=1}^{n}w_{kq}w_{kj}}{\propto \sum_{k=1}^{n}\mathrm{w}_{kq}^{2}+\sum_{k=1}^{n}\mathrm{w}_{kj}^{2}}$$

重疊係數是使用 max 運算子而不是 min 運算子計算的。

更新於: 2021年11月22日

瀏覽量 1K+

開啟您的 職業生涯

透過完成課程獲得認證

開始學習
廣告