統計資料挖掘的方法有哪些?
在統計資料挖掘技術中,它被建立用於有效處理大量資料,這些資料通常是多維的,並且可能包含幾種複雜型別。
有幾種完善的統計方法用於資料分析,特別是數值資料。這些方法已被廣泛應用於科學記錄(例如,物理、工程、製造、心理學和醫學實驗記錄),以及來自經濟學和社會科學的資訊。
統計資料挖掘的各種方法如下:
迴歸分析 - 通常,這些技術用於根據新的預測變數(自變數)預測響應變數(因變數)的值,其中變數是數值型。迴歸分析有多種形式,包括線性迴歸、多元迴歸、加權迴歸、多項式迴歸、非引數迴歸和穩健迴歸(當誤差不能滿足正態性條件或資料包含大量異常值時,穩健方法非常有用)。
廣義線性模型 - 這些模型及其推廣(廣義相加模型)能夠以類似於使用線性迴歸對數學響應變數建模的方式,將分類(名義)響應變數(其幾種變換)與一組預測變數相關聯。廣義線性模型包括邏輯迴歸和泊松迴歸。
方差分析 - 此方法分析由數值響應變數和新的分類變數(因子)定義的兩個或多個總體的實驗資訊。通常,方差分析(單因素方差分析)問題包含對k個總體或處理的比較,以確定至少兩個均值是否不同。
混合效應模型 - 這些模型用於探索分組資料——可以根據一個或多個分組變數進行分類的資料。它們通常定義響應變數與根據一個或多個因素組合的資料中的幾個協變數之間的關係。其應用領域包括多層次資料、重複測量資料、區組設計和縱向資料。
因子分析 - 此方法可以確定哪些變數組合產生給定的因子。例如,對於一些精神病學資料,無法直接計算感興趣的特定因子(例如,智力);但是,可以測量其他反映感興趣元素的量。因此,沒有一個變數適合作為因變數。
判別分析 - 此技術可以預測分類響應變數。與廣義線性模型不同,它認為自變數服從多元正態分佈。該過程試圖確定幾個判別函式(自變數的線性組合),這些函式可以區分響應變數所代表的組。判別分析通常用於社會科學。
生存分析 - 有多種完善的統計方法用於生存分析。這些技術最初是為了預測接受醫學分析的患者至少存活到時間t的機率而設計的。
質量控制 - 有多種統計方法用於製作質量控制圖,包括Shewhart圖和CUSUM圖。這些統計量包括均值、標準差、極差、計數、移動平均數、移動標準差和移動極差。