機器學習 - 支援向量機

支援向量機 (SVM) 是一種強大而靈活的監督式機器學習演算法，可用於分類和迴歸。但通常，它們用於分類問題。SVM 最初在 1960 年代被提出，並在 1990 年代得到了改進。與其他機器學習演算法相比，SVM 具有獨特的實現方式。如今，由於其能夠處理多個連續和分類變數，因此它們非常受歡迎。

SVM 的工作原理

SVM 的目標是找到一個超平面，將資料點分成不同的類別。超平面在 2D 空間中是一條線，在 3D 空間中是一個平面，在 n 維空間中是一個更高維度的表面。超平面的選擇方式是最大化間隔，即超平面與每個類別最近資料點之間的距離。最近的資料點稱為支援向量。

可以使用以下公式計算超平面與資料點“x”之間的距離：

distance = (w . x + b) / ||w||

其中“w”是權重向量，“b”是偏置項，“||w||”是權重向量的歐幾里得範數。權重向量“w”垂直於超平面並決定其方向，而偏置項“b”決定其位置。

最優超平面是透過解決一個最佳化問題找到的，該問題是在所有資料點都被正確分類的約束下最大化間隔。換句話說，我們希望找到最大化兩類之間間隔的超平面，同時確保沒有資料點被錯誤分類。這是一個凸最佳化問題，可以使用二次規劃來解決。

如果資料點不是線性可分的，我們可以使用一種稱為核技巧的技術將資料點對映到更高維的空間，在該空間中它們變得可分。核函式計算對映資料點之間的內積，而無需計算對映本身。這使我們能夠在更高維的空間中處理資料點，而不會產生對映它們的計算成本。

讓我們藉助下圖詳細瞭解一下：

以下是 SVM 中的重要概念：

支援向量 - 最接近超平面的資料點稱為支援向量。分離線將藉助這些資料點定義。
超平面 - 正如我們在上圖中看到的，它是一個決策平面或空間，它被分成一組具有不同類別的物件。
間隔 - 可以定義為不同類別最近資料點之間兩條線之間的間隙。它可以計算為從線到支援向量的垂直距離。大間隔被認為是好的間隔，小間隔被認為是壞的間隔。

Python 實現

我們將使用 scikit-learn 庫在 Python 中實現 SVM。Scikit-learn 是一個流行的機器學習庫，它提供了廣泛的演算法用於分類、迴歸、聚類和降維任務。

我們將使用著名的 Iris 資料集，其中包含三種鳶尾花（山鳶尾、雜色鳶尾和弗吉尼亞鳶尾）的花萼長度、花萼寬度、花瓣長度和花瓣寬度。目標是根據這四個特徵將花卉分類到各自的種類中。

示例

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

# load the iris dataset
iris = load_iris()

# split the data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(iris.data,
iris.target, test_size=0.2, random_state=42)

# create an SVM classifier with a linear kernel
svm = SVC(kernel='linear')

# train the SVM classifier on the training set
svm.fit(X_train, y_train)

# make predictions on the testing set
y_pred = svm.predict(X_test)

# calculate the accuracy of the classifier
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

我們首先從 scikit-learn 匯入必要的模組：load_iris 用於載入 iris 資料集，train_test_split 用於將資料分成訓練集和測試集，SVC 用於建立具有線性核的 SVM 分類器，以及accuracy_score 用於計算分類器的準確率。

我們使用load_iris載入 iris 資料集，並使用train_test_split將資料分成訓練集和測試集。我們使用 0.2 的測試大小，這意味著 20% 的資料將用於測試，80% 用於訓練。我們將隨機狀態設定為 42 以確保結果的可重複性。

我們使用SVC(kernel='linear')建立一個具有線性核的 SVM 分類器。然後我們使用svm.fit(X_train, y_train)在訓練集上訓練 SVM 分類器。

訓練完分類器後，我們使用svm.predict(X_test)對測試集進行預測。然後我們使用accuracy_score(y_test, y_pred)計算分類器的準確率，並將其列印到控制檯。

輸出

程式碼的輸出應該類似於以下內容：

Accuracy: 1.0

調整 SVM 引數

在實踐中，SVM 通常需要調整其引數以獲得最佳效能。需要調整的最重要的引數是核函式、正則化引數 C 和特定於核函式的引數。

核函式引數決定了要使用的核函式型別。最常見的核函式型別是線性、多項式、徑向基函式 (RBF) 和 sigmoid。線性核用於線性可分資料，而其他核用於非線性可分資料。

正則化引數 C 控制最大化間隔和最小化分類誤差之間的權衡。較高的 C 值意味著分類器將嘗試以較小間隔為代價最小化分類誤差，而較低的 C 值意味著分類器將嘗試最大化間隔，即使這意味著更多的錯誤分類。

特定於核函式的引數取決於所使用的核函式型別。例如，多項式核具有多項式次數和多項式係數的引數，而 RBF 核具有高斯函式寬度的引數。

我們可以使用交叉驗證來調整 SVM 的引數。交叉驗證包括將資料分成幾個子集，並在每個子集上訓練分類器，同時使用其餘子集進行測試。這使我們能夠評估分類器在資料不同子集上的效能，並選擇最佳引數集。

示例

from sklearn.model_selection import GridSearchCV
# define the parameter grid
param_grid = {
   'C': [0.1, 1, 10, 100],
   'kernel': ['linear', 'poly', 'rbf', 'sigmoid'],
   'degree': [2, 3, 4],
   'coef0': [0.0, 0.1, 0.5],
   'gamma': ['scale', 'auto']
}

# create an SVM classifier
svm = SVC()

# perform grid search to find the best set of parameters
grid_search = GridSearchCV(svm, param_grid, cv=5)
grid_search.fit(X_train, y_train)
# print the best set of parameters and their accuracy
print("Best parameters:", grid_search.best_params_)
print("Best accuracy:", grid_search.best_score_)

我們首先從 scikit-learn 匯入GridSearchCV模組，它是一個用於對一組引數執行網格搜尋的工具。我們定義一個引數網格，其中包含我們要調整的每個引數的可能值。

我們使用SVC()建立一個 SVM 分類器，然後將其與引數網格和交叉驗證摺疊次數 (cv=5) 一起傳遞給GridSearchCV。然後我們呼叫grid_search.fit(X_train, y_train)執行網格搜尋。

網格搜尋完成後，我們分別使用grid_search.best_params_和grid_search.best_score_列印最佳引數集及其準確率。

輸出

執行此程式後，您將獲得以下輸出：

Best parameters: {'C': 0.1, 'coef0': 0.5, 'degree': 3, 'gamma': 'scale', 'kernel': 'poly'}
Best accuracy: 0.975

這意味著網格搜尋找到的最佳引數集為：C=0.1，coef0=0.5，degree=3，gamma=scale，以及kernel=poly。這組引數在訓練集上達到的準確率為97.5%。

您現在可以使用這些引數建立一個新的SVM分類器，並在測試集上測試其效能。

列印頁面