Weka - 資料載入



本章我們將從第一個用於資料預處理的選項卡開始。這是您應用於資料以構建模型的所有演算法的共同點,也是 WEKA 中所有後續操作的常見步驟。

為了使機器學習演算法獲得可接受的精度,務必先清理資料。這是因為從現場收集的原始資料可能包含空值、不相關的列等等。

本章將學習如何預處理原始資料,並建立一個乾淨、有意義的資料集以供進一步使用。

首先,您將學習如何將資料檔案載入到 WEKA Explorer 中。資料可以從以下來源載入:

  • 本地檔案系統
  • 網路
  • 資料庫

本章將詳細介紹這三種載入資料的方法。

從本地檔案系統載入資料

在上一課中學習的機器學習選項卡下方,您會找到以下三個按鈕:

  • 開啟檔案…
  • 開啟 URL…
  • 開啟資料庫…

點選**開啟檔案…**按鈕。將開啟一個目錄導航視窗,如下面的螢幕所示:

Local File System

現在,導航到儲存資料檔案的資料夾。WEKA 安裝程式附帶許多示例資料庫供您試驗。這些資料庫位於 WEKA 安裝程式的**data**資料夾中。

為了學習目的,從該資料夾中選擇任何資料檔案。檔案內容將載入到 WEKA 環境中。我們很快就會學習如何檢查和處理這些載入的資料。在此之前,讓我們看看如何從 Web 載入資料檔案。

從 Web 載入資料

單擊**開啟 URL…**按鈕後,您將看到如下視窗:

Loading Data From Web

我們將從公共 URL 開啟檔案。在彈出框中鍵入以下 URL:

https://storm.cis.fordham.edu/~gweiss/data-mining/weka-data/weather.nominal.arff

您可以指定儲存資料的任何其他 URL。**Explorer** 將從遠端站點將資料載入到其環境中。

從資料庫載入資料

單擊**開啟資料庫…**按鈕後,您將看到如下視窗:

Loading Data From Db

將連線字串設定為您的資料庫,設定資料選擇查詢,處理查詢並將選定的記錄載入到 WEKA 中。

廣告
© . All rights reserved.