Python中的邏輯迴歸 - 獲取資料
本章詳細討論了在Python中執行邏輯迴歸所需的資料獲取步驟。
下載資料集
如果您尚未下載前面提到的UCI資料集,請現在從此處下載:此處。點選“Data Folder”。您將看到以下螢幕:
點選給定的連結下載bank.zip檔案。zip檔案包含以下檔案:
我們將使用bank.csv檔案進行模型開發。bank-names.txt檔案包含資料庫的描述,您稍後會需要。bank-full.csv包含更大的資料集,您可以將其用於更高階的開發。
這裡我們已將bank.csv檔案包含在可下載的原始碼zip檔案中。此檔案包含逗號分隔的欄位。我們也對檔案進行了一些修改。建議您使用專案原始碼zip檔案中包含的檔案進行學習。
載入資料
要載入您剛剛複製的csv檔案中的資料,請鍵入以下語句並執行程式碼。
In [2]: df = pd.read_csv('bank.csv', header=0)
您還可以透過執行以下程式碼語句來檢查載入的資料:
IN [3]: df.head()
命令執行後,您將看到以下輸出:
基本上,它列印了載入資料的頭五行。檢查存在的21列。我們只使用其中幾列進行模型開發。
接下來,我們需要清理資料。資料可能包含一些帶有NaN的行。要消除此類行,請使用以下命令:
IN [4]: df = df.dropna()
幸運的是,bank.csv不包含任何帶有NaN的行,因此此步驟在我們的案例中並非真正必需。但是,通常很難在一個巨大的資料庫中發現此類行。因此,執行上述語句來清理資料始終更安全。
注意 - 您可以隨時使用以下語句輕鬆檢查資料大小:
IN [5]: print (df.shape) (41188, 21)
行數和列數將如上面的第二行所示列印在輸出中。
接下來要做的就是檢查每一列對於我們試圖構建的模型的適用性。
廣告