大型資料庫中的統計度量是什麼?


關係型資料庫系統支援五種內建聚合函式,例如 count()、sum()、avg()、max() 和 min()。這些聚合函式可以用作多維資訊描述性挖掘中的基本度量。有兩種描述性統計度量,例如集中趨勢度量和資料離散度度量,可以有效地用於高多維資料庫。

集中趨勢度量 - 集中趨勢度量,如平均數、中位數、眾數和中程數。

平均數 - 算術平均數簡單地透過將所有值加在一起併除以值的個數來計算。它使用了每個值的的資料。令 x1、x2、... xn 為一組 N 個值或觀測值,例如薪資。這組值的平均數為

$$\mathrm{X^\prime\:=\:\frac{\sum_{i=1}^N\:X_i}{N}\:=\:\frac{X_1+X_2\:\dotsm\:X_n}{N}}$$

這對應於關係型資料庫系統中支援的聚合函式 average (avg())。在多個數據立方體中,sum 和 count 會在預計算中儲存。因此,平均值的推導很簡單。

$\mathrm{average\:=\:\frac{sum}{count}}$

中位數 - 根據值的分佈,計算中位數有兩種方法。

如果 x1、x2、.... xn 按降序排列,並且 n 為奇數。那麼中位數為

$$\mathrm{\left(\frac{n+1}{2}\right)^{th}\:value}$$

例如,1、4、6、7、12、14、18

中位數 = 7

當 n 為偶數時。那麼中位數為

$$\mathrm{\frac{\left(\frac{n}{2}\right)^{th}value\:+\:\left(\frac{n}{2}\:+\:1\right)^{th} value}{2}}$$

例如,1、4、6、7、8、12、14、16。

$$\mathrm{Median\:=\:\frac{7+8}{2}\:=\:7.5}$$

中位數既不是分散式度量也不是代數度量,它是整體度量。雖然在大型資料庫中評估確切的中位數值並不簡單,但可以有效地計算近似中位數。

眾數 - 它是一組值中最常見的值。分佈可以是單峰、雙峰或多峰。如果資料是分類的(在名義尺度上測量),則只能計算眾數。眾數也可以用序數和更高階的資料計算,但並不合適。

測量資料的離散度 - 數值資訊傾向於擴散的程度稱為資料的離散度或方差。最常見的資料離散度度量是範圍、四分位距和標準差。

範圍 - 範圍表示為資料集中最大值與最小值的差。

$$\mathrm{Range\:=\:X_L-X_S}$$

其中

$\mathrm{X_L\:\rightarrow\:最大值}$

$\mathrm{X_S\:\rightarrow\:最小值}$

四分位數 - 除中位數外,最常見的百分位數是四分位數。由 Q1 表示的第一四分位數是第 25 個百分位數,由 Q3 表示的第三四分位數是第 75 個百分位數。包含中位數的四分位數提供了一些關於四分位數中心、擴充套件和形狀的指示,這是一個簡單的擴充套件度量,提供了資料中間一半所覆蓋的範圍。這稱為四分位距 (IQR),定義為 -

$$\mathrm{IQR\:=\:Q_{3}-Q_{1}}$$

標準差 - 當方差中的離差值平方時,它們的度量單位也平方。

更新於: 2022年2月15日

3K+ 次瀏覽

開啟你的 職業生涯

透過完成課程獲得認證

開始學習
廣告