KNIME - 構建你自己的模型



在本章中,你將構建你自己的機器學習模型,根據一些觀察到的特徵對植物進行分類。我們將為此目的使用來自UCI 機器學習庫的著名iris資料集。該資料集包含三種不同的植物類別。我們將訓練我們的模型將未知植物分類到這三個類別中的一個。

我們將從在 KNIME 中建立一個新的工作流開始,用於建立我們的機器學習模型。

建立工作流

要建立一個新的工作流,請在 KNIME 工作臺中選擇以下選單選項。

File → New

你將看到以下螢幕:

Creating Workflow

選擇新建 KNIME 工作流選項,然後單擊下一步按鈕。在下一個螢幕上,系統將詢問你工作流的所需名稱以及儲存它的目標資料夾。根據需要輸入此資訊,然後單擊完成以建立一個新的工作區。

一個具有給定名稱的新工作區將新增到工作區檢視中,如下所示:

Creating Workspace

你現在將在此工作區中新增各種節點以建立你的模型。在新增節點之前,你必須下載並準備iris資料集以供我們使用。

準備資料集

從 UCI 機器學習庫網站下載 iris 資料集 下載 Iris 資料集。下載的 iris.data 檔案為 CSV 格式。我們將對其進行一些更改以新增列名。

在您喜歡的文字編輯器中開啟下載的檔案,並在開頭新增以下行:

sepal length, petal length, sepal width, petal width, class

當我們的檔案讀取器節點讀取此檔案時,它將自動將上述欄位作為列名。

現在,你將開始新增各種節點。

新增檔案讀取器

轉到節點資源庫檢視,在搜尋框中輸入“file”以查詢檔案讀取器節點。這在下面的螢幕截圖中可以看到:

Adding File Reader

選擇並雙擊檔案讀取器將節點新增到工作區。或者,你可以使用拖放功能將節點新增到工作區。新增節點後,你必須對其進行配置。右鍵單擊節點並選擇配置選單選項。你已經在上一課中完成了此操作。

載入資料檔案後,設定螢幕如下所示。

Adding Datafile

要載入你的資料集,請單擊瀏覽按鈕並選擇 iris.data 檔案的位置。該節點將載入檔案的內容,這些內容顯示在配置框的下部。一旦你確認資料檔案已正確定位並載入,請單擊確定按鈕關閉配置對話方塊。

你現在將為此節點新增一些註釋。右鍵單擊節點並選擇新建工作流注釋選單選項。螢幕上將出現一個註釋框,如下面的螢幕截圖所示

Workflow Annotation

單擊框內並新增以下注釋:

Reads iris.data

單擊框外的任何位置以退出編輯模式。根據需要調整框的大小並將其放置在節點周圍。最後,雙擊節點下方的節點 1文字,將其更改為:

Loads data

此時,你的螢幕將如下所示:

Iris Data

我們現在將新增一個新的節點,用於將我們載入的資料集劃分為訓練集和測試集。

新增分割槽節點

節點資源庫搜尋視窗中,輸入幾個字元以找到分割槽節點,如下面的螢幕截圖所示:

Locate Partitioning

將節點新增到我們的工作區。設定其配置如下:

Relative (%) : 95
Draw Randomly

以下螢幕截圖顯示了配置引數。

Configuration Parameters

接下來,在兩個節點之間建立連線。為此,請單擊檔案讀取器節點的輸出,按住滑鼠按鈕,會出現一個橡皮筋線,將其拖動到分割槽節點的輸入,然後釋放滑鼠按鈕。現在在兩個節點之間建立了連線。

添加註釋,更改描述,根據需要放置節點和註釋檢視。在此階段,你的螢幕應如下所示:

File Reader Partitioning

接下來,我們將新增k-Means節點。

新增 k-Means 節點

從資源庫中選擇k-Means節點並將其新增到工作區。如果你想複習 k-Means 演算法的知識,只需在工作臺的描述檢視中查詢其描述。這在下面的螢幕截圖中顯示:

K Means

順便說一句,你可以在做出最終決定使用哪個演算法之前,在描述視窗中查詢不同演算法的描述。

開啟節點的配置對話方塊。我們將使用此處顯示的所有欄位的預設值:

Configuration Dialog

單擊確定以接受預設值並關閉對話方塊。

將註釋和描述設定為以下內容:

  • 註釋:分類叢集

  • 描述:執行聚類

分割槽節點的頂部輸出連線到k-Means節點的輸入。重新定位你的專案,你的螢幕應如下所示:

Partitioning Node

接下來,我們將新增一個聚類分配器節點。

新增聚類分配器

聚類分配器將新資料分配給一組現有的原型。它有兩個輸入——原型模型和包含輸入資料的datatable。在下面的螢幕截圖中描述了節點的描述:

Adding Cluster Assigner

因此,對於此節點,你必須進行兩個連線:

  • 分割槽節點的 PMML 聚類模型輸出→聚類分配器的原型輸入

  • 分割槽節點的第二個分割槽輸出→聚類分配器的輸入資料

這兩個連線在下面的螢幕截圖中顯示:

Cluster Assigner

聚類分配器不需要任何特殊配置。只需接受預設值即可。

現在,為此節點新增一些註釋和描述。重新排列你的節點。你的螢幕應如下所示:

Shape Manager

此時,我們的聚類已完成。我們需要以圖形方式視覺化輸出。為此,我們將新增一個散點圖。我們將在散點圖中為三個類別設定不同的顏色和形狀。因此,我們將首先透過顏色管理器節點,然後透過形狀管理器節點過濾k-Means節點的輸出。

新增顏色管理器

在資源庫中找到顏色管理器節點。將其新增到工作區。將配置保留為預設值。請注意,你必須開啟配置對話方塊並點選確定以接受預設值。設定節點的描述文字。

k-Means的輸出到顏色管理器的輸入建立連線。在此階段,你的螢幕將如下所示:

Color Manager Screen

新增形狀管理器

在資源庫中找到形狀管理器並將其新增到工作區。將配置保留為預設值。與前一個一樣,你必須開啟配置對話方塊並點選確定以設定預設值。從顏色管理器的輸出到形狀管理器的輸入建立連線。設定節點的描述。

你的螢幕應如下所示:

Adding Shape Manager

現在,你將在我們的模型中新增最後一個節點,那就是散點圖。

新增散點圖

在資源庫中找到散點圖節點並將其新增到工作區。將形狀管理器的輸出連線到散點圖的輸入。將配置保留為預設值。設定描述。

最後,為最近新增的三個節點新增一個組註釋

註釋:視覺化

根據需要重新定位節點。在此階段,你的螢幕應如下所示。

Annotation Visualization

這完成了模型構建的任務。

廣告
© . All rights reserved.