軟體度量資料分析

收集相關資料後，我們必須以適當的方式對其進行分析。選擇分析技術需要考慮三個主要方面。

資料的性質

為了分析資料，我們還必須檢視資料所代表的更大的總體以及該資料的分佈。

抽樣是從大量總體中選擇一組資料的過程。樣本統計量描述並總結從一組實驗物件獲得的度量。

總體引數代表如果測量所有可能的受試者將獲得的值。

總體或樣本可以用集中趨勢的度量（如均值、中位數和眾數）和離散趨勢的度量（如方差和標準差）來描述。許多資料集呈正態分佈，如下圖所示。

如上所示，資料將圍繞均值均勻分佈，這是正態分佈的重要特徵。

還存在其他分佈，其中資料傾斜，使得均值一側的資料點多於另一側。例如：如果大部分資料存在於均值的左側，那麼我們可以說分佈左偏。

通常，進行實驗是為了：

為了實現這些目標，應根據假設正式表達目標，並且分析必須直接解決假設。

調查必須設計成探索理論的真實性。該理論通常指出，使用某種方法、工具或技術對受試者具有特定影響，使其在某些方面優於另一種方法。

需要考慮兩種資料情況：**正態資料**和**非正態資料**。

如果資料來自正態分佈，並且有兩個組需要比較，則可以使用學生t檢驗進行分析。如果需要比較兩個以上組，可以使用稱為F統計量的方差分析。

如果資料是非正態的，則可以透過對其進行排序使用Kruskal-Wallis檢驗進行分析。

調查旨在確定描述一個變數或多個變數的資料點之間的關係。

有三種技術可以回答有關關係的問題：箱線圖、散點圖和相關性分析。

**箱線圖**可以表示一組資料的範圍的摘要。
**散點圖**表示兩個變數之間的關係。
**相關性分析**使用統計方法來確認兩個屬性之間是否存在真實的關聯。
- 對於正態分佈的值，使用**皮爾遜相關係數**來檢查兩個變數是否高度相關。
- 對於非正態資料，對資料進行排序並使用**斯皮爾曼等級相關係數**作為關聯度量。非正態資料的另一個度量是**肯德爾穩健相關係數**，它研究資料點對之間的關係，並可以識別偏相關。

如果排名包含大量相等值，可以使用列聯表上的**卡方檢驗**來檢驗變數之間的關聯。類似地，可以使用**線性迴歸**生成一個方程來描述變數之間的關係。

對於兩個以上的變數，可以使用**多元迴歸**。

選擇分析技術時必須考慮調查的設計。同時，分析的複雜性會影響所選擇的設計。多組使用F統計量而不是學生t檢驗（兩組）。

對於具有兩個以上因素的複雜析因設計，需要更復雜的關聯和顯著性檢驗。

統計技術可以用來解釋一組變數對其他變數的影響，或補償時間或學習效應。

列印頁面