大型資料庫中的統計度量是什麼?
關係型資料庫系統支援五種內建聚合函式,例如 count()、sum()、avg()、max() 和 min()。這些聚合函式可以用作多維資訊描述性挖掘中的基本度量。有兩種描述性統計度量,例如集中趨勢度量和資料離散度度量,可以有效地用於高多維資料庫。
集中趨勢度量 - 集中趨勢度量,如平均數、中位數、眾數和中程數。
平均數 - 算術平均數簡單地透過將所有值加在一起併除以值的個數來計算。它使用了每個值的的資料。令 x1、x2、... xn 為一組 N 個值或觀測值,例如薪資。這組值的平均數為
$$\mathrm{X^\prime\:=\:\frac{\sum_{i=1}^N\:X_i}{N}\:=\:\frac{X_1+X_2\:\dotsm\:X_n}{N}}$$
這對應於關係型資料庫系統中支援的聚合函式 average (avg())。在多個數據立方體中,sum 和 count 會在預計算中儲存。因此,平均值的推導很簡單。
$\mathrm{average\:=\:\frac{sum}{count}}$
中位數 - 根據值的分佈,計算中位數有兩種方法。
如果 x1、x2、.... xn 按降序排列,並且 n 為奇數。那麼中位數為
$$\mathrm{\left(\frac{n+1}{2}\right)^{th}\:value}$$
例如,1、4、6、7、12、14、18
中位數 = 7
當 n 為偶數時。那麼中位數為
$$\mathrm{\frac{\left(\frac{n}{2}\right)^{th}value\:+\:\left(\frac{n}{2}\:+\:1\right)^{th} value}{2}}$$
例如,1、4、6、7、8、12、14、16。
$$\mathrm{Median\:=\:\frac{7+8}{2}\:=\:7.5}$$
中位數既不是分散式度量也不是代數度量,它是整體度量。雖然在大型資料庫中評估確切的中位數值並不簡單,但可以有效地計算近似中位數。
眾數 - 它是一組值中最常見的值。分佈可以是單峰、雙峰或多峰。如果資料是分類的(在名義尺度上測量),則只能計算眾數。眾數也可以用序數和更高階的資料計算,但並不合適。
測量資料的離散度 - 數值資訊傾向於擴散的程度稱為資料的離散度或方差。最常見的資料離散度度量是範圍、四分位距和標準差。
範圍 - 範圍表示為資料集中最大值與最小值的差。
$$\mathrm{Range\:=\:X_L-X_S}$$
其中
$\mathrm{X_L\:\rightarrow\:最大值}$
$\mathrm{X_S\:\rightarrow\:最小值}$
四分位數 - 除中位數外,最常見的百分位數是四分位數。由 Q1 表示的第一四分位數是第 25 個百分位數,由 Q3 表示的第三四分位數是第 75 個百分位數。包含中位數的四分位數提供了一些關於四分位數中心、擴充套件和形狀的指示,這是一個簡單的擴充套件度量,提供了資料中間一半所覆蓋的範圍。這稱為四分位距 (IQR),定義為 -
$$\mathrm{IQR\:=\:Q_{3}-Q_{1}}$$
標準差 - 當方差中的離差值平方時,它們的度量單位也平方。