什麼是區間比例變數?


區間比例變數是近似線性尺度的連續資料。例如重量和高度、經緯度座標(例如,在對房屋進行聚類時)以及氣溫。使用的測量單位會影響聚類分析。

例如,將高度的資料單位從米更改為英寸,或將重量的資料單位從千克更改為磅,可能會導致幾種不同的聚類結構。通常,以較小的單位定義變數會導致該變數的範圍更大,因此對最終的聚類結構的影響更大。

為了避免依賴於資料單位的選擇,必須對資料進行標準化。標準化測量試圖為所有變數提供相同的權重。這在沒有關於資料的先驗知識時尤其有用。但在某些應用中,使用者可能故意需要為特定變數集提供比其他變數更大的權重。例如,在對籃球運動員候選人進行聚類時,可能更傾向於為身高變數賦予更大的權重。

為了標準化資料,一種方法是將原始資料修改為無量綱變數。給定變數f的測量值,可以按如下方式實現:

計算平均絕對偏差,sf

$$\mathrm{s_{f}\:=\:\frac{1}{n}(|x_{1f}-m_{f}|+|x_{2f}-m_{f}|+\cdot\cdot\cdot+|x_{nf}-m_{f}|)}$$

其中x1f … xnf是f的n個測量值,而mf是f的平均值,即$\mathrm{m_{f}\:=\:\frac{1}{n}(|x_{1f}|+|x_{2f}|+\cdot\cdot\cdot+|x_{nf}|)}$

計算標準化測量值或z分數 −

$$\mathrm{z_{if}\:=\:\frac{x_{if}-m_{f}}{s_{f}}}$$

平均絕對偏差sf比標準偏差$\mathrm{\sigma_{f}}$對離群值的影響更小。在計算平均絕對偏差時,與均值的偏差$\mathrm{(|x_{1f}-m_{f}|)}$沒有平方。

因此,離群值的影響減小了。還有其他強大的離散度度量,包括中位數絕對偏差。使用平均絕對偏差的好處是離群值的z分數不會太小;因此,離群值仍然可以檢測到。

標準化在特定應用中可能有用也可能無用。因此,是否以及如何實現標準化,必須由使用者決定。在標準化之後,或在特定應用中不進行標準化的情況下,通常根據每一組物件之間的距離來計算由區間比例變數定義的物件之間的差異(或相似性)。

著名的距離度量是歐幾里得距離,表示為

$$\mathrm{d(i, j)=\sqrt{(X_{i1}-X_{j1}})^2+{(X_{i2}-X_{j2}})^2+...+{(X_{in}-X_{jn}})^2}$$

其中i = (xi1, xi2, … xin)和j = (xj1, xj2, … xjn)是兩個n維資料物件。另一個眾所周知的度量是曼哈頓(或城市街區)距離,描述為

$$\mathrm{d(i, j)=|X_{i1}-X_{j1}|+ |(X_{i2}-X_{j2}|+...+|(X_{in}-X_{jn}|}$$

歐幾里得距離和曼哈頓距離都滿足距離函式的以下數值要求:

  • d(i, j) ≥ 0:距離是非負數。

  • d(i, i) = 0:物件到自身的距離為0。

  • d(i, j) = d(j, i):距離是對稱函式。

  • d(i, j) ≤ d(i, h)+d(h, j):直接從空間中的物件i到物件j的距離不超過繞過任何其他物件h的距離(三角不等式)。

更新於:2022年2月16日

2K+ 次瀏覽

開啟你的職業生涯

完成課程獲得認證

開始學習
廣告
© . All rights reserved.