如何在 Python 中使用 scikit-learn 庫預處理資料?


資料預處理指的是資料清洗、去除無效資料、噪聲、用相關值替換資料等等。

這並不總是指文字資料;它也可能是影像或影片處理。它是機器學習管道中的一個重要步驟。

資料預處理基本上是指將所有資料(從各種資源或單個資源收集)收集到通用格式或統一資料集(取決於資料型別)的任務。

這樣做是為了讓學習演算法能夠從這個資料集中學習,並給出具有較高準確性的相關結果。由於現實世界的資料永遠不會是理想的,因此資料可能存在缺失單元格、錯誤、異常值、列不一致等等。

有時,影像可能未正確對齊,或者可能不清楚,或者可能尺寸過大。預處理的目標是消除這些差異和錯誤。資料預處理不是一項單一的任務,而是一組按步驟執行的任務。

一個步驟的輸出成為下一步的輸入,依此類推。

讓我們以將數值轉換為布林值為例 -

示例

import numpy as np
from sklearn import preprocessing
input_data = np.array([[34.78, 31.9, -65.5],[-16.5, 2.45, -83.5],[0.5, -87.98, 45.62],
[5.9, 2.38, -55.82]])
data_binarized = preprocessing.Binarizer(threshold=0.5).transform(input_data)
print("\Values converted from numeric to Boolean :\n", data_binarized)

輸出

Values converted from numeric to Boolean :
[[1. 1. 0.]
[0. 1. 0.]
[0. 0. 1.]
[1. 1. 0.]]

解釋

  • 匯入所需的包。
  • 使用 Numpy 庫生成輸入資料。
  • 使用 sklearn 的 'preprocessing' 類中的 'Binarizer' 函式將數值轉換為布林值。
  • 布林值基本上只指 1 和 0。
  • 此轉換後的資料列印在控制檯上。

更新於: 2020年12月10日

229 次檢視

開啟你的 職業生涯

透過完成課程獲得認證

開始學習
廣告

© . All rights reserved.