如何在 Python 中使用 scikit-learn 庫預處理資料?
資料預處理指的是資料清洗、去除無效資料、噪聲、用相關值替換資料等等。
這並不總是指文字資料;它也可能是影像或影片處理。它是機器學習管道中的一個重要步驟。
資料預處理基本上是指將所有資料(從各種資源或單個資源收集)收集到通用格式或統一資料集(取決於資料型別)的任務。
這樣做是為了讓學習演算法能夠從這個資料集中學習,並給出具有較高準確性的相關結果。由於現實世界的資料永遠不會是理想的,因此資料可能存在缺失單元格、錯誤、異常值、列不一致等等。
有時,影像可能未正確對齊,或者可能不清楚,或者可能尺寸過大。預處理的目標是消除這些差異和錯誤。資料預處理不是一項單一的任務,而是一組按步驟執行的任務。
一個步驟的輸出成為下一步的輸入,依此類推。
讓我們以將數值轉換為布林值為例 -
示例
import numpy as np
from sklearn import preprocessing
input_data = np.array([[34.78, 31.9, -65.5],[-16.5, 2.45, -83.5],[0.5, -87.98, 45.62],
[5.9, 2.38, -55.82]])
data_binarized = preprocessing.Binarizer(threshold=0.5).transform(input_data)
print("\Values converted from numeric to Boolean :\n", data_binarized)輸出
Values converted from numeric to Boolean : [[1. 1. 0.] [0. 1. 0.] [0. 0. 1.] [1. 1. 0.]]
解釋
- 匯入所需的包。
- 使用 Numpy 庫生成輸入資料。
- 使用 sklearn 的 'preprocessing' 類中的 'Binarizer' 函式將數值轉換為布林值。
- 布林值基本上只指 1 和 0。
- 此轉換後的資料列印在控制檯上。
廣告
資料結構
網路
關係資料庫管理系統
作業系統
Java
iOS
HTML
CSS
Android
Python
C 程式設計
C++
C#
MongoDB
MySQL
Javascript
PHP