
軟體度量資料分析
收集相關資料後,我們必須以適當的方式對其進行分析。選擇分析技術需要考慮三個主要方面。
- 資料的性質
- 實驗的目的
- 設計考慮
資料的性質
為了分析資料,我們還必須檢視資料所代表的更大的總體以及該資料的分佈。
抽樣、總體和資料分佈
抽樣是從大量總體中選擇一組資料的過程。樣本統計量描述並總結從一組實驗物件獲得的度量。
總體引數代表如果測量所有可能的受試者將獲得的值。
總體或樣本可以用集中趨勢的度量(如均值、中位數和眾數)和離散趨勢的度量(如方差和標準差)來描述。許多資料集呈正態分佈,如下圖所示。

如上所示,資料將圍繞均值均勻分佈,這是正態分佈的重要特徵。
還存在其他分佈,其中資料傾斜,使得均值一側的資料點多於另一側。例如:如果大部分資料存在於均值的左側,那麼我們可以說分佈左偏。
實驗的目的
通常,進行實驗是為了:
- 驗證理論
- 探索關係
為了實現這些目標,應根據假設正式表達目標,並且分析必須直接解決假設。
驗證理論
調查必須設計成探索理論的真實性。該理論通常指出,使用某種方法、工具或技術對受試者具有特定影響,使其在某些方面優於另一種方法。
需要考慮兩種資料情況:**正態資料**和**非正態資料**。
如果資料來自正態分佈,並且有兩個組需要比較,則可以使用學生t檢驗進行分析。如果需要比較兩個以上組,可以使用稱為F統計量的方差分析。
如果資料是非正態的,則可以透過對其進行排序使用Kruskal-Wallis檢驗進行分析。
探索關係
調查旨在確定描述一個變數或多個變數的資料點之間的關係。
有三種技術可以回答有關關係的問題:箱線圖、散點圖和相關性分析。
**箱線圖**可以表示一組資料的範圍的摘要。
**散點圖**表示兩個變數之間的關係。
**相關性分析**使用統計方法來確認兩個屬性之間是否存在真實的關聯。
對於正態分佈的值,使用**皮爾遜相關係數**來檢查兩個變數是否高度相關。
對於非正態資料,對資料進行排序並使用**斯皮爾曼等級相關係數**作為關聯度量。非正態資料的另一個度量是**肯德爾穩健相關係數**,它研究資料點對之間的關係,並可以識別偏相關。
如果排名包含大量相等值,可以使用列聯表上的**卡方檢驗**來檢驗變數之間的關聯。類似地,可以使用**線性迴歸**生成一個方程來描述變數之間的關係。
對於兩個以上的變數,可以使用**多元迴歸**。
設計考慮
選擇分析技術時必須考慮調查的設計。同時,分析的複雜性會影響所選擇的設計。多組使用F統計量而不是學生t檢驗(兩組)。
對於具有兩個以上因素的複雜析因設計,需要更復雜的關聯和顯著性檢驗。
統計技術可以用來解釋一組變數對其他變數的影響,或補償時間或學習效應。