KNIME - 構建你自己的模型

在本章中，你將構建你自己的機器學習模型，根據一些觀察到的特徵對植物進行分類。我們將為此目的使用來自UCI 機器學習庫的著名iris資料集。該資料集包含三種不同的植物類別。我們將訓練我們的模型將未知植物分類到這三個類別中的一個。

我們將從在 KNIME 中建立一個新的工作流開始，用於建立我們的機器學習模型。

建立工作流

要建立一個新的工作流，請在 KNIME 工作臺中選擇以下選單選項。

File → New

你將看到以下螢幕：

選擇新建 KNIME 工作流選項，然後單擊下一步按鈕。在下一個螢幕上，系統將詢問你工作流的所需名稱以及儲存它的目標資料夾。根據需要輸入此資訊，然後單擊完成以建立一個新的工作區。

一個具有給定名稱的新工作區將新增到工作區檢視中，如下所示：

你現在將在此工作區中新增各種節點以建立你的模型。在新增節點之前，你必須下載並準備iris資料集以供我們使用。

準備資料集

從 UCI 機器學習庫網站下載 iris 資料集下載 Iris 資料集。下載的 iris.data 檔案為 CSV 格式。我們將對其進行一些更改以新增列名。

在您喜歡的文字編輯器中開啟下載的檔案，並在開頭新增以下行：

sepal length, petal length, sepal width, petal width, class

當我們的檔案讀取器節點讀取此檔案時，它將自動將上述欄位作為列名。

現在，你將開始新增各種節點。

新增檔案讀取器

轉到節點資源庫檢視，在搜尋框中輸入“file”以查詢檔案讀取器節點。這在下面的螢幕截圖中可以看到：

選擇並雙擊檔案讀取器將節點新增到工作區。或者，你可以使用拖放功能將節點新增到工作區。新增節點後，你必須對其進行配置。右鍵單擊節點並選擇配置選單選項。你已經在上一課中完成了此操作。

載入資料檔案後，設定螢幕如下所示。

要載入你的資料集，請單擊瀏覽按鈕並選擇 iris.data 檔案的位置。該節點將載入檔案的內容，這些內容顯示在配置框的下部。一旦你確認資料檔案已正確定位並載入，請單擊確定按鈕關閉配置對話方塊。

你現在將為此節點新增一些註釋。右鍵單擊節點並選擇新建工作流注釋選單選項。螢幕上將出現一個註釋框，如下面的螢幕截圖所示

單擊框內並新增以下注釋：

Reads iris.data

單擊框外的任何位置以退出編輯模式。根據需要調整框的大小並將其放置在節點周圍。最後，雙擊節點下方的節點 1文字，將其更改為：

Loads data

此時，你的螢幕將如下所示：

我們現在將新增一個新的節點，用於將我們載入的資料集劃分為訓練集和測試集。

新增分割槽節點

在節點資源庫搜尋視窗中，輸入幾個字元以找到分割槽節點，如下面的螢幕截圖所示：

將節點新增到我們的工作區。設定其配置如下：

Relative (%) : 95
Draw Randomly

以下螢幕截圖顯示了配置引數。

接下來，在兩個節點之間建立連線。為此，請單擊檔案讀取器節點的輸出，按住滑鼠按鈕，會出現一個橡皮筋線，將其拖動到分割槽節點的輸入，然後釋放滑鼠按鈕。現在在兩個節點之間建立了連線。

添加註釋，更改描述，根據需要放置節點和註釋檢視。在此階段，你的螢幕應如下所示：

接下來，我們將新增k-Means節點。

新增 k-Means 節點

從資源庫中選擇k-Means節點並將其新增到工作區。如果你想複習 k-Means 演算法的知識，只需在工作臺的描述檢視中查詢其描述。這在下面的螢幕截圖中顯示：

順便說一句，你可以在做出最終決定使用哪個演算法之前，在描述視窗中查詢不同演算法的描述。

開啟節點的配置對話方塊。我們將使用此處顯示的所有欄位的預設值：

單擊確定以接受預設值並關閉對話方塊。

將註釋和描述設定為以下內容：

註釋：分類叢集
描述：執行聚類

將分割槽節點的頂部輸出連線到k-Means節點的輸入。重新定位你的專案，你的螢幕應如下所示：

接下來，我們將新增一個聚類分配器節點。

新增聚類分配器

聚類分配器將新資料分配給一組現有的原型。它有兩個輸入——原型模型和包含輸入資料的datatable。在下面的螢幕截圖中描述了節點的描述：

因此，對於此節點，你必須進行兩個連線：

分割槽節點的 PMML 聚類模型輸出→聚類分配器的原型輸入
分割槽節點的第二個分割槽輸出→聚類分配器的輸入資料

這兩個連線在下面的螢幕截圖中顯示：

聚類分配器不需要任何特殊配置。只需接受預設值即可。

現在，為此節點新增一些註釋和描述。重新排列你的節點。你的螢幕應如下所示：

此時，我們的聚類已完成。我們需要以圖形方式視覺化輸出。為此，我們將新增一個散點圖。我們將在散點圖中為三個類別設定不同的顏色和形狀。因此，我們將首先透過顏色管理器節點，然後透過形狀管理器節點過濾k-Means節點的輸出。

新增顏色管理器

在資源庫中找到顏色管理器節點。將其新增到工作區。將配置保留為預設值。請注意，你必須開啟配置對話方塊並點選確定以接受預設值。設定節點的描述文字。

從k-Means的輸出到顏色管理器的輸入建立連線。在此階段，你的螢幕將如下所示：

新增形狀管理器

在資源庫中找到形狀管理器並將其新增到工作區。將配置保留為預設值。與前一個一樣，你必須開啟配置對話方塊並點選確定以設定預設值。從顏色管理器的輸出到形狀管理器的輸入建立連線。設定節點的描述。

你的螢幕應如下所示：

現在，你將在我們的模型中新增最後一個節點，那就是散點圖。

新增散點圖

在資源庫中找到散點圖節點並將其新增到工作區。將形狀管理器的輸出連線到散點圖的輸入。將配置保留為預設值。設定描述。

最後，為最近新增的三個節點新增一個組註釋

註釋：視覺化

根據需要重新定位節點。在此階段，你的螢幕應如下所示。

這完成了模型構建的任務。

列印頁面