Python 中的邏輯迴歸 - 分割資料

我們有大約四萬一千條奇數記錄。如果我們使用全部資料構建模型，我們將沒有資料進行測試。所以一般來說，我們將整個資料集分為兩部分，比如 70/30 的百分比。我們使用 70% 的資料構建模型，剩下的用於測試我們建立的模型在預測中的準確性。你可以根據要求使用不同的分割比例。

建立特徵陣列

在分割資料之前，我們將資料分成兩個陣列 X 和 Y。X 陣列包含我們要分析的所有特徵（資料列），Y 陣列是布林值的單維陣列，是預測的輸出。為了理解這一點，讓我們執行一些程式碼。

首先，執行以下 Python 語句來建立 X 陣列 −

In [17]: X = data.iloc[:,1:]

要檢查 X 的內容，可以使用 head 列印一些初始記錄。以下螢幕顯示了 X 陣列的內容。

In [18]: X.head ()

該陣列有幾行和 23 列。

接下來，我們將建立包含“y”值的輸出陣列。

要建立預測值列的陣列，請使用以下 Python 語句 −

In [19]: Y = data.iloc[:,0]

透過呼叫 head 檢查其內容。下面的螢幕輸出顯示了結果 −

In [20]: Y.head()
Out[20]: 0   0
1    0
2    1
3    0
4    1
Name: y, dtype: int64

現在，使用以下命令分割資料 −

In [21]: X_train, X_test, Y_train, Y_test = train_test_split(X, Y, random_state=0)

這將建立四個陣列，稱為 X_train、Y_train、X_test 和 Y_test。和之前一樣，你可以使用 head 命令檢查這些陣列的內容。我們將使用 X_train 和 Y_train 陣列訓練我們的模型，使用 X_test 和 Y_test 陣列進行測試和驗證。

現在，我們準備構建我們的分類器。我們將在下一章中瞭解它。

列印頁面