資料探勘中的估計方法有哪些?
十倍交叉驗證是測量學習方案在特定資料集上錯誤率的標準方法;為了獲得可靠的結果,需要進行10次十倍交叉驗證。另外還有兩種方法:留一法交叉驗證和自助法。
留一法交叉驗證
留一法交叉驗證是一種特殊的n倍交叉驗證,其中n是資料集中例項的數量。依次將每個例項留出,並在所有剩餘例項上訓練學習方案。透過其在剩餘例項上的正確性來計算——成功或失敗分別為一或零。對資料集的每個組進行n次判斷的結果取平均值,該平均值定義最終的錯誤估計。
此過程有兩個有趣的方面。首先,在每種情況下,都可以使用盡可能多的記錄進行訓練,這大概會提高分類器真實性的機率。
其次,該過程是確定性的——不涉及隨機抽樣。無需重複10次,甚至根本無需重複。每次都會獲得相同的結果。但是,缺點是計算成本很高,因為整個學習階段需要執行n次,對於大型資料集通常是不可行的。
自助法
我們描述的第二種估計方法,自助法,是基於帶放回抽樣的統計過程。以前,每當從資料集中抽取樣本以形成訓練集或測試集時,都是不放回抽樣。
大多數學習方案可以使用相同的例項兩次,如果某個例項在訓練集中出現兩次,則會影響學習結果。自助法的思想是從資料集中進行帶放回抽樣以形成訓練集。我們將描述一種特殊的變體,神秘地(但出於很快就會明朗的原因)稱為0.632自助法。
為此,對包含n個例項的資料集進行n次帶放回抽樣,以提供一個不同的包含n個例項的資料集。由於這個第二個資料集中的一些元素(幾乎可以肯定)會被重複,因此原始資料集中必須有一些例項沒有被選中——我們將這些用作測試例項。
透過在訓練集上訓練學習系統並在測試集上計算其錯誤率獲得的數值將是對真實錯誤率的悲觀估計,因為訓練集雖然大小為n,但仍然只包含63%的例項,與十倍交叉驗證中使用的90%相比,這不算很多。
廣告