心理學中選擇模型的應用


當樣本的一個方面的分數可能受到非隨機選擇過程的影響時,主要需要考慮選擇模型。採用兩階段迴歸分析來無偏地估計引數和標準誤差。女性的薪資就是一個可以用這種方法分析的資料例子:資料的一些方面可以用標準迴歸方法建模,但還需要考慮大量為零的薪資(反映一些女性不工作的決定)。

什麼是選擇模型?

選擇模型可以表述為從一組候選模型中選擇一個統計模型。在最基本的情況下,會考慮現有的一組資料。然而,這項任務也可能包括實驗設計,以便收集到的資料非常適合模型選擇問題。在具有可比預測能力或解釋能力的候選模型中,最簡單的模型是最佳選擇。模型選擇是科學探究中最基本任務之一。識別解釋一系列觀察結果的原理,通常與預測這些觀察結果的數學模型相關。例如,伽利略在他的斜面實驗中證明,球體的運動符合他的模型預測的拋物線。

選擇模型的方向

從資料中進行推斷和學習有兩個主要目標。一個是進行科學發現,理解潛在的資料生成機制和資料解釋。資料學習的另一個目標是預測未來或未知的觀察結果。在第二個目標中,資料科學家有時只關心資料的精確機率描述。當然,也可能同時關注這兩個方向。與這兩個不同的目標相一致,模型選擇也可以有兩個方向:用於推斷的模型選擇和用於預測的模型選擇。第一步是找到能夠可靠地描述資料不確定性來源的最佳資料模型,以便進行科學解釋。對於這個目標來說,所選模型的可管理性與樣本大小至關重要。因此,選擇一致性是評估模型選擇的合適概念,這意味著,給定足夠的資料樣本,最穩健的候選模型將被一致地選擇。

第二種方法是將模型選擇為具有出色預測效能的工具。然而,在後一種情況下,所選模型可能是幾個接近的競爭者中的幸運贏家,但預測效能仍然可能是最佳的。如果是這種情況,則模型選擇適合第二個目標(預測)。但是,模型用於洞察和解釋的用途可能需要更加可靠和準確。此外,對於以這種方式選擇的複雜模型,即使是對與選擇中使用的資料略微不同的資料的預測,也可能是不合理的。

模型選擇的原因

在深入研究模型選擇程式之前,有必要回答“為什麼”這個問題。原因大多是務實的,涉及節省計算機時間和分析師的注意力。但是,當從這個角度來看時,沒有令人信服的理由根據某些標準選擇一個單一的最佳模型。拒絕“明顯糟糕的模型”,保留一部分進行進一步考慮更有意義。這個子集有時可能包含單個模型,但也可能不包含。此外,如果成本因素驅動模型選擇,則可以透過溫克勒(1999)提出的效用函式直接將其納入流程。因此,有充分的理由質疑對這一困境的經典解釋。

輔助選擇候選模型集的方法

可以考慮四種可行的方法來幫助選擇候選模型的絕對集合。它們如下:

  • 模型規範。

  • 資料轉換。

  • 探索性資料分析。

  • 科學方法

模型規範

模型規範是開發統計模型過程中的一個步驟。它包括為模型選擇合適的函式形式,並決定要包含哪些變數。例如,我們可以根據個人收入、受教育年限和工作經驗來指定函式關係。

對資料集中的每個點應用確定性數學函式被稱為資料轉換;也就是說,每個資料點都被替換為轉換後的值,其中 f 是一個函式。轉換通常用於使資料看起來更符合統計推斷程式的假設,或改進圖形的可解釋性或外觀。幾乎總是,資料轉換函式是可逆的,並且通常是連續的。通常,轉換應用於一組可比測量值。例如,如果我們使用的是以特定貨幣單位表示的人們收入的資料,則通常會轉換每個人的收入值。

資料轉換

探索性資料分析

探索性資料分析分析資料集以總結其主要特徵,通常使用統計圖形和其他資料視覺化方法。可以使用或不使用統計模型。但是,EDA 的主要目標是檢視資料除了正式建模之外還能告訴我們什麼,從而與傳統的假設檢驗形成對比。自 1970 年以來,約翰·圖基一直提倡探索性資料分析,以鼓勵統計學家探索資料,並可能提出可能導致新的資料收集和實驗的假設。EDA 與初始資料分析 (IDA) 不同,後者側重於檢查模型擬合和假設檢驗所需的假設、處理缺失值和轉換變數。EDA 包含 IDA。

科學方法

科學方法是一種獲取知識的經驗方法,至少自 17 世紀以來就一直是科學發展的特徵(幾個世紀前也有傑出的實踐者;有關更多詳細資訊,請參閱科學方法歷史文章)。它包括仔細觀察和嚴格懷疑所觀察到的內容,因為認知假設可能會扭曲對觀察的解釋。它包括透過歸納法根據這些觀察結果發展假設,透過對從假設中推匯出的演繹進行實驗和基於測量的統計檢驗來檢驗假設,並根據實驗結果改進(或消除)假設。這些是科學方法的原則,而不是所有科學工作都必須遵循的步驟。

結論

評估和選擇與目標一致並最大化績效的專案的過程稱為選擇。優先順序排序是根據特定標準對專案進行排名或評分以確定執行順序的過程。因此,藉助選擇模型和理論,由於自然特徵或特性,可以獲得優先順序排序和努力。

更新於:2022年12月30日

瀏覽量:117

啟動你的職業生涯

完成課程獲得認證

開始
廣告