軟體度量資料分析



收集相關資料後,我們必須以適當的方式對其進行分析。選擇分析技術需要考慮三個主要方面。

  • 資料的性質
  • 實驗的目的
  • 設計考慮

資料的性質

為了分析資料,我們還必須檢視資料所代表的更大的總體以及該資料的分佈。

抽樣、總體和資料分佈

抽樣是從大量總體中選擇一組資料的過程。樣本統計量描述並總結從一組實驗物件獲得的度量。

總體引數代表如果測量所有可能的受試者將獲得的值。

總體或樣本可以用集中趨勢的度量(如均值、中位數和眾數)和離散趨勢的度量(如方差和標準差)來描述。許多資料集呈正態分佈,如下圖所示。

Population

如上所示,資料將圍繞均值均勻分佈,這是正態分佈的重要特徵。

還存在其他分佈,其中資料傾斜,使得均值一側的資料點多於另一側。例如:如果大部分資料存在於均值的左側,那麼我們可以說分佈左偏。

實驗的目的

通常,進行實驗是為了:

  • 驗證理論
  • 探索關係

為了實現這些目標,應根據假設正式表達目標,並且分析必須直接解決假設。

驗證理論

調查必須設計成探索理論的真實性。該理論通常指出,使用某種方法、工具或技術對受試者具有特定影響,使其在某些方面優於另一種方法。

需要考慮兩種資料情況:**正態資料**和**非正態資料**。

如果資料來自正態分佈,並且有兩個組需要比較,則可以使用學生t檢驗進行分析。如果需要比較兩個以上組,可以使用稱為F統計量的方差分析。

如果資料是非正態的,則可以透過對其進行排序使用Kruskal-Wallis檢驗進行分析。

探索關係

調查旨在確定描述一個變數或多個變數的資料點之間的關係。

有三種技術可以回答有關關係的問題:箱線圖、散點圖和相關性分析。

  • **箱線圖**可以表示一組資料的範圍的摘要。

  • **散點圖**表示兩個變數之間的關係。

  • **相關性分析**使用統計方法來確認兩個屬性之間是否存在真實的關聯。

    • 對於正態分佈的值,使用**皮爾遜相關係數**來檢查兩個變數是否高度相關。

    • 對於非正態資料,對資料進行排序並使用**斯皮爾曼等級相關係數**作為關聯度量。非正態資料的另一個度量是**肯德爾穩健相關係數**,它研究資料點對之間的關係,並可以識別偏相關。

如果排名包含大量相等值,可以使用列聯表上的**卡方檢驗**來檢驗變數之間的關聯。類似地,可以使用**線性迴歸**生成一個方程來描述變數之間的關係。

對於兩個以上的變數,可以使用**多元迴歸**。

設計考慮

選擇分析技術時必須考慮調查的設計。同時,分析的複雜性會影響所選擇的設計。多組使用F統計量而不是學生t檢驗(兩組)。

對於具有兩個以上因素的複雜析因設計,需要更復雜的關聯和顯著性檢驗。

統計技術可以用來解釋一組變數對其他變數的影響,或補償時間或學習效應。

廣告