Weka - 介紹
任何機器學習應用程式的基礎都是資料 - 不僅是少量資料,而是巨大的資料,在當前術語中稱為大資料。
要訓練機器分析大資料,你需要對以下資料進行多項考量 −
- 資料必須乾淨。
- 不應包含空值。
此外,資料表中的並非所有列都對你要進行的分析型別有用。在將資料輸入機器學習演算法之前,必須移除無關的資料列或機器學習術語中稱為“特徵”的資料。
簡而言之,在大資料可用於機器學習之前需要很多預處理。一旦資料準備就緒,你將應用各種機器學習演算法,如分類、迴歸、聚類等,以解決你的問題。
你應用的演算法型別在很大程度上取決於你的領域知識。即使在同一型別(例如分類)中,也有多種演算法可用。你可能希望在同一類別下測試不同的演算法,以構建高效的機器學習模型。在執行此操作時,你將更傾向於對處理後的資料進行視覺化,因此你還需要視覺化工具。
在即將到來的章節中,你將瞭解 Weka,這是一款軟體,可以輕鬆完成所有上述操作,讓你輕鬆處理大資料。
廣告