Python中的邏輯迴歸 - 獲取資料



本章詳細討論了在Python中執行邏輯迴歸所需的資料獲取步驟。

下載資料集

如果您尚未下載前面提到的UCI資料集,請現在從此處下載:此處。點選“Data Folder”。您將看到以下螢幕:

Machine Learning Databases

點選給定的連結下載bank.zip檔案。zip檔案包含以下檔案:

Bank

我們將使用bank.csv檔案進行模型開發。bank-names.txt檔案包含資料庫的描述,您稍後會需要。bank-full.csv包含更大的資料集,您可以將其用於更高階的開發。

這裡我們已將bank.csv檔案包含在可下載的原始碼zip檔案中。此檔案包含逗號分隔的欄位。我們也對檔案進行了一些修改。建議您使用專案原始碼zip檔案中包含的檔案進行學習。

載入資料

要載入您剛剛複製的csv檔案中的資料,請鍵入以下語句並執行程式碼。

In [2]: df = pd.read_csv('bank.csv', header=0)

您還可以透過執行以下程式碼語句來檢查載入的資料:

IN [3]: df.head()

命令執行後,您將看到以下輸出:

Loaded Data

基本上,它列印了載入資料的頭五行。檢查存在的21列。我們只使用其中幾列進行模型開發。

接下來,我們需要清理資料。資料可能包含一些帶有NaN的行。要消除此類行,請使用以下命令:

IN [4]: df = df.dropna()

幸運的是,bank.csv不包含任何帶有NaN的行,因此此步驟在我們的案例中並非真正必需。但是,通常很難在一個巨大的資料庫中發現此類行。因此,執行上述語句來清理資料始終更安全。

注意 - 您可以隨時使用以下語句輕鬆檢查資料大小:

IN [5]: print (df.shape)
(41188, 21)

行數和列數將如上面的第二行所示列印在輸出中。

接下來要做的就是檢查每一列對於我們試圖構建的模型的適用性。

廣告
© . All rights reserved.