Weka - 檔案格式



WEKA 支援大量的資料檔案格式。以下是完整列表:

  • arff
  • arff.gz
  • bsi
  • csv
  • dat
  • data
  • json
  • json.gz
  • libsvm
  • m
  • names
  • xrff
  • xrff.gz

螢幕底部下拉列表框中列出了它支援的檔案型別。如下面的螢幕截圖所示。

Drop Down List

您會注意到它支援多種格式,包括 CSV 和 JSON。預設檔案型別為 Arff。

Arff 格式

一個Arff檔案包含兩個部分 - 標題和資料。

  • 標題描述了屬性型別。
  • 資料部分包含一個用逗號分隔的資料列表。

例如,從 WEKA 示例資料庫載入的天氣資料檔案如下所示:

Sample Databases

從螢幕截圖中,您可以推斷出以下幾點:

  • @relation 標記定義了資料庫的名稱。

  • @attribute 標記定義了屬性。

  • @data 標記開始資料行的列表,每個資料行包含用逗號分隔的欄位。

  • 屬性可以採用名義值,如這裡所示的 outlook:

@attribute outlook (sunny, overcast, rainy)
  • 屬性可以採用實數值,在本例中:

@attribute temperature real
  • 您還可以設定一個名為 play 的目標或類變數,如這裡所示:

@attribute play (yes, no)
  • 目標採用兩個名義值 yes 或 no。

其他格式

Explorer 可以載入前面提到的任何格式的資料。由於 arff 是 WEKA 中的首選格式,因此您可以從任何格式載入資料並將其儲存為 arff 格式以供以後使用。在預處理資料後,只需將其儲存為 arff 格式即可進行進一步分析。

現在您已經瞭解瞭如何將資料載入到 WEKA 中,在下一章中,您將學習如何預處理資料。

廣告

© . All rights reserved.