最近鄰分類器的特點是什麼？

資料探勘資料庫資料結構

最近鄰規則通常能產生高效能，無需對訓練例項所取自的分配做出任何先驗假設。它包含正例和反例的訓練集。新樣本的分類透過計算其到最近訓練樣本的距離來確定；該點的符號決定樣本的分類。

k-NN 分類器透過取 k 個最近的點並取多數的符號來改進這一概念。通常選擇 k 為小奇數以避免平局（通常為 1、3 或 5）。較大的 k 值有助於減少訓練資料集中噪點的影響，k 的選擇是透過交叉驗證來實現的。

最近鄰演算法有以下幾個特點：

最近鄰分類是更通用的基於例項學習方法的一個組成部分。它需要具體的訓練例項來進行預測，而無需構建從資料中匯出的抽象（或模型）。

基於例項的學習演算法需要一種鄰近度度量來確定例項之間的相似性或距離，以及一個分類函式，該函式根據測試例項與其他例項的鄰近度來確定測試例項的預測類別。

包括最近鄰分類器在內的懶惰學習器不需要構建模型。但是，定義一個測試示例可能相當耗時，因為需要分別計算測試示例和訓練示例之間的鄰近度值。相反，熱切學習器將它們的計算資源用於構建模型。由於模型已經構建好，因此定義測試示例非常快速。

最近鄰分類器根據區域性資料進行預測，而決策樹和基於規則的分類器則試圖發現適合整個輸入空間的全域性模型。由於分類決策是在區域性做出的，因此最近鄰分類器容易受噪聲的影響。

最近鄰分類器可以建立任意形狀的決策邊界。這種邊界支援比決策樹和基於規則的分類器（它們被限制為直線決策邊界）更具動態性的模型表示。

除非採取適當的鄰近度度量和資料預處理步驟，否則最近鄰分類器可能會做出錯誤的預測。例如，假設需要根據身高（米）和體重（磅）等屬性來對一組人進行分類。

身高屬性的變化較小，範圍從 1.5 米到 1.85 米，而體重屬性的範圍可以從 90 磅到 250 磅。如果不考慮屬性的尺度，則鄰近度度量可能會被人的體重差異所支配。

基尼係數

更新於：2022年2月11日

2K+ 次瀏覽

開啟你的職業生涯

完成課程獲得認證

廣告

© . All rights reserved.