大型資料庫中的統計度量是什麼？

資料探勘資料庫資料結構

關係型資料庫系統支援五種內建聚合函式，例如 count()、sum()、avg()、max() 和 min()。這些聚合函式可以用作多維資訊描述性挖掘中的基本度量。有兩種描述性統計度量，例如集中趨勢度量和資料離散度度量，可以有效地用於高多維資料庫。

集中趨勢度量 - 集中趨勢度量，如平均數、中位數、眾數和中程數。

平均數 - 算術平均數簡單地透過將所有值加在一起併除以值的個數來計算。它使用了每個值的的資料。令 x₁、x₂、... x_n 為一組 N 個值或觀測值，例如薪資。這組值的平均數為

$$\mathrm{X^\prime\:=\:\frac{\sum_{i=1}^N\:X_i}{N}\:=\:\frac{X_1+X_2\:\dotsm\:X_n}{N}}$$

這對應於關係型資料庫系統中支援的聚合函式 average (avg())。在多個數據立方體中，sum 和 count 會在預計算中儲存。因此，平均值的推導很簡單。

$\mathrm{average\:=\:\frac{sum}{count}}$

中位數 - 根據值的分佈，計算中位數有兩種方法。

如果 x₁、x₂、.... x_n 按降序排列，並且 n 為奇數。那麼中位數為

$$\mathrm{\left(\frac{n+1}{2}\right)^{th}\:value}$$

例如，1、4、6、7、12、14、18

中位數 = 7

當 n 為偶數時。那麼中位數為

$$\mathrm{\frac{\left(\frac{n}{2}\right)^{th}value\:+\:\left(\frac{n}{2}\:+\:1\right)^{th} value}{2}}$$

例如，1、4、6、7、8、12、14、16。

$$\mathrm{Median\:=\:\frac{7+8}{2}\:=\:7.5}$$

中位數既不是分散式度量也不是代數度量，它是整體度量。雖然在大型資料庫中評估確切的中位數值並不簡單，但可以有效地計算近似中位數。

眾數 - 它是一組值中最常見的值。分佈可以是單峰、雙峰或多峰。如果資料是分類的（在名義尺度上測量），則只能計算眾數。眾數也可以用序數和更高階的資料計算，但並不合適。

測量資料的離散度 - 數值資訊傾向於擴散的程度稱為資料的離散度或方差。最常見的資料離散度度量是範圍、四分位距和標準差。

範圍 - 範圍表示為資料集中最大值與最小值的差。

$$\mathrm{Range\:=\:X_L-X_S}$$

其中

$\mathrm{X_L\:\rightarrow\:最大值}$

$\mathrm{X_S\:\rightarrow\:最小值}$

四分位數 - 除中位數外，最常見的百分位數是四分位數。由 Q₁ 表示的第一四分位數是第 25 個百分位數，由 Q₃ 表示的第三四分位數是第 75 個百分位數。包含中位數的四分位數提供了一些關於四分位數中心、擴充套件和形狀的指示，這是一個簡單的擴充套件度量，提供了資料中間一半所覆蓋的範圍。這稱為四分位距 (IQR)，定義為 -

$$\mathrm{IQR\:=\:Q_{3}-Q_{1}}$$

標準差 - 當方差中的離差值平方時，它們的度量單位也平方。

基尼係數

更新於: 2022年2月15日

3K+ 次瀏覽

開啟你的職業生涯

透過完成課程獲得認證

廣告

© . All rights reserved.