統計學 - 資料模式



當資料模式以圖形方式繪製時,它們非常有用。資料模式通常用中心、擴充套件、形狀和其他異常屬性等特徵來描述。其他特殊的描述性標籤是對稱、鐘形、偏斜等。

中心

從圖形上看,分佈的中心位於分佈的中位數處。這樣的圖形圖表顯示幾乎一半的觀測值位於任一側。每列的高度表示觀測值的頻率。

Center Data Pattern

擴充套件

分佈的擴充套件是指資料的變化。如果觀測值集覆蓋的範圍很廣,則擴充套件越大。如果觀測值集中在一個值附近,則擴充套件越小。

Spread Data Pattern

形狀

可以使用以下特徵來描述分佈的形狀。

  • 對稱性 - 在對稱分佈中,圖形可以以中心方式劃分,使得每一半都是另一半的映象。

    Symmetry
  • 峰數 - 具有一個或多個峰的分佈。具有一個明顯峰的分佈稱為單峰分佈,具有兩個明顯峰的分佈稱為雙峰分佈。中心處的單峰對稱分佈稱為鐘形分佈。

    Number of peaks
  • 偏度 - 一些分佈在一側的觀測值可能比另一側多。在較低值處觀測值較少的分佈被稱為右偏分佈;在較低值處觀測值較少的分佈被稱為左偏分佈。

    Skewness
  • 均勻 - 當觀測值集沒有峰值並且資料在分佈範圍內均勻分佈時,則該分佈稱為均勻分佈。

    Uniform

異常特徵

資料模式的常見異常特徵是間隙和離群值。

  • 間隙 - 間隙指向分佈中沒有觀測值的區域。下圖有一個間隙,因為分佈的中間沒有觀測值。

    Gaps
  • 離群值 - 分佈可能以與其他觀測資料集差異很大的極值來表徵。這些極值稱為離群值。下圖說明了一個帶有離群值的分佈。

    Outliers
廣告
© . All rights reserved.