Python - 方差測量



在統計學中,方差是衡量資料集中的一個值與平均值之間差異程度的指標。換句話說,它表示值的分散程度。它是透過使用標準差來衡量的。另一種常用的方法是偏度。

這兩種方法都是透過使用 pandas 庫中提供的函式來計算的。

測量標準差

標準差是方差的平方根。方差是資料集中的值與平均值之差的平方的平均值。在 Python 中,我們使用 pandas 庫中的 std() 函式計算此值。

import pandas as pd

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
   'Lee','Chanchal','Gasper','Naviya','Andres']),
   'Age':pd.Series([25,26,25,23,30,25,23,34,40,30,25,46]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])}

#Create a DataFrame
df = pd.DataFrame(d)

# Calculate the standard deviation
print df.std()

輸出如下所示 -

Age       7.265527
Rating    0.661628
dtype: float64

測量偏度

它用於確定資料是對稱的還是偏斜的。如果指數在 -1 到 1 之間,則分佈是對稱的。如果指數不超過 -1,則它向左偏斜;如果它至少為 1,則它向右偏斜。

import pandas as pd

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
   'Lee','Chanchal','Gasper','Naviya','Andres']),
   'Age':pd.Series([25,26,25,23,30,25,23,34,40,30,25,46]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])}

#Create a DataFrame
df = pd.DataFrame(d)
print df.skew()

輸出如下所示 -

Age       1.443490
Rating   -0.153629
dtype: float64

因此,年齡評級的分佈是對稱的,而年齡的分佈則向右偏斜。

廣告