Weka - 檔案格式
WEKA 支援大量的資料檔案格式。以下是完整列表:
- arff
- arff.gz
- bsi
- csv
- dat
- data
- json
- json.gz
- libsvm
- m
- names
- xrff
- xrff.gz
螢幕底部下拉列表框中列出了它支援的檔案型別。如下面的螢幕截圖所示。
您會注意到它支援多種格式,包括 CSV 和 JSON。預設檔案型別為 Arff。
Arff 格式
一個Arff檔案包含兩個部分 - 標題和資料。
- 標題描述了屬性型別。
- 資料部分包含一個用逗號分隔的資料列表。
例如,從 WEKA 示例資料庫載入的天氣資料檔案如下所示:
從螢幕截圖中,您可以推斷出以下幾點:
@relation 標記定義了資料庫的名稱。
@attribute 標記定義了屬性。
@data 標記開始資料行的列表,每個資料行包含用逗號分隔的欄位。
屬性可以採用名義值,如這裡所示的 outlook:
@attribute outlook (sunny, overcast, rainy)
屬性可以採用實數值,在本例中:
@attribute temperature real
您還可以設定一個名為 play 的目標或類變數,如這裡所示:
@attribute play (yes, no)
目標採用兩個名義值 yes 或 no。
其他格式
Explorer 可以載入前面提到的任何格式的資料。由於 arff 是 WEKA 中的首選格式,因此您可以從任何格式載入資料並將其儲存為 arff 格式以供以後使用。在預處理資料後,只需將其儲存為 arff 格式即可進行進一步分析。
現在您已經瞭解瞭如何將資料載入到 WEKA 中,在下一章中,您將學習如何預處理資料。
廣告