如何在 Python 中使用 scikit-learn 庫預處理資料？

Python 伺服器端程式設計程式設計

資料預處理指的是資料清洗、去除無效資料、噪聲、用相關值替換資料等等。

這並不總是指文字資料；它也可能是影像或影片處理。它是機器學習管道中的一個重要步驟。

資料預處理基本上是指將所有資料（從各種資源或單個資源收集）收集到通用格式或統一資料集（取決於資料型別）的任務。

這樣做是為了讓學習演算法能夠從這個資料集中學習，並給出具有較高準確性的相關結果。由於現實世界的資料永遠不會是理想的，因此資料可能存在缺失單元格、錯誤、異常值、列不一致等等。

有時，影像可能未正確對齊，或者可能不清楚，或者可能尺寸過大。預處理的目標是消除這些差異和錯誤。資料預處理不是一項單一的任務，而是一組按步驟執行的任務。

一個步驟的輸出成為下一步的輸入，依此類推。

讓我們以將數值轉換為布林值為例 -

示例

import numpy as np
from sklearn import preprocessing
input_data = np.array([[34.78, 31.9, -65.5],[-16.5, 2.45, -83.5],[0.5, -87.98, 45.62],
[5.9, 2.38, -55.82]])
data_binarized = preprocessing.Binarizer(threshold=0.5).transform(input_data)
print("\Values converted from numeric to Boolean :\n", data_binarized)

輸出

Values converted from numeric to Boolean :
[[1. 1. 0.]
[0. 1. 0.]
[0. 0. 1.]
[1. 1. 0.]]

解釋

匯入所需的包。
使用 Numpy 庫生成輸入資料。
使用 sklearn 的 'preprocessing' 類中的 'Binarizer' 函式將數值轉換為布林值。
布林值基本上只指 1 和 0。
此轉換後的資料列印在控制檯上。

AmitDiwan

更新於: 2020年12月10日

229 次檢視

開啟你的職業生涯

透過完成課程獲得認證

開始學習

如何在 Python 中使用 scikit-learn 庫預處理資料？

示例

輸出

解釋

開啟你的 職業生涯

開啟你的職業生涯