Weka - 分類器
許多機器學習應用都與分類相關。例如,您可能希望將腫瘤分類為惡性或良性。您可能希望根據天氣條件決定是否進行戶外遊戲。通常,此決定取決於天氣的幾個特徵/條件。因此,您可能更喜歡使用樹分類器來做出是否玩遊戲的決定。
在本章中,我們將學習如何在天氣資料上構建這樣的樹分類器以決定遊戲條件。
設定測試資料
我們將使用上一課中預處理的天氣資料檔案。使用開啟檔案...選項在預處理選項卡下開啟儲存的檔案,點選分類選項卡,您將看到以下螢幕 -
在您瞭解可用的分類器之前,讓我們檢查一下測試選項。您會注意到下面列出的四個測試選項 -
- 訓練集
- 提供的測試集
- 交叉驗證
- 百分比分割
除非您擁有自己的訓練集或客戶提供的測試集,否則您將使用交叉驗證或百分比分割選項。在交叉驗證中,您可以設定將整個資料分割的摺疊次數,並在每次訓練迭代期間使用。在百分比分割中,您將使用設定的分割百分比將資料分割為訓練和測試。
現在,將輸出類的預設play選項保留 -
接下來,您將選擇分類器。
選擇分類器
點選“選擇”按鈕並選擇以下分類器 -
weka→classifiers>trees>J48
這在下面的螢幕截圖中顯示 -
點選開始按鈕開始分類過程。一段時間後,分類結果將顯示在您的螢幕上,如下所示 -
讓我們檢查一下螢幕右側顯示的輸出。
它表示樹的大小為 6。您很快就會看到樹的視覺化表示。在摘要中,它表示正確分類的例項為 2,錯誤分類的例項為 3,它還表示相對絕對誤差為 110%。它還顯示了混淆矩陣。對這些結果進行分析超出了本教程的範圍。但是,您可以很容易地從這些結果中看出分類不可接受,您需要更多資料進行分析,以改進特徵選擇,重建模型,依此類推,直到您對模型的準確性滿意為止。無論如何,這就是 WEKA 的全部內容。它允許您快速測試您的想法。
視覺化結果
要檢視結果的視覺化表示,請右鍵單擊結果列表框中的結果。螢幕上將彈出幾個選項,如下所示 -
選擇視覺化樹以獲得遍歷樹的視覺化表示,如下面的螢幕截圖所示 -
選擇視覺化分類器錯誤將繪製分類結果,如下所示 -
十字表示正確分類的例項,而正方形表示錯誤分類的例項。在圖的左下角,您會看到一個十字,表示如果outlook為晴天,則play遊戲。因此,這是一個正確分類的例項。要定位例項,您可以透過滑動jitter滑塊在其中引入一些抖動。
當前圖是outlook與play。這些由螢幕頂部的兩個下拉列表框指示。
現在,嘗試在每個框中進行不同的選擇,並注意 X 和 Y 軸如何變化。可以透過使用繪圖右側的水平條來實現相同的效果。每個條帶代表一個屬性。左鍵單擊條帶將所選屬性設定為 X 軸,而右鍵單擊將將其設定為 Y 軸。
為了更深入的分析,還提供了其他幾個繪圖。明智地使用它們來微調您的模型。下面顯示了一個成本/收益分析圖以供您快速參考。
解釋這些圖表中的分析超出了本教程的範圍。鼓勵讀者複習他們對機器學習演算法分析的知識。
在下一章中,我們將學習下一組機器學習演算法,即聚類。