什麼是基於例項的表示？

資料探勘資料庫資料結構

學習最簡單的結構是簡單的記憶，或死記硬背。因為已經記住了一組訓練例項，所以在遇到一個新的例項時，會檢查記憶體中與新例項最相似的訓練例項。

唯一的問題是如何闡明相似。首先，這是一種完全不同的描述從一組例項中提取的“知識”的方法——它儲存例項本身，並透過將類未知的新例項與類已知的當前例項關聯來工作。與其嘗試制定規則，不如直接從例項本身入手。這稱為基於例項的學習。

在基於例項的學習中，所有實際工作都是在出現定義新例項的時間完成的，而不是在處理訓練集時完成的。這種方法與其他方法的區別在於“學習”發生的時間。

基於例項的學習是被動的，推遲了考慮可能的實際工作，而其他方法則是積極的，一旦看到資料就會進行泛化。在基於例項的分類中，每個新例項都使用距離度量與當前例項區分開來，並使用最近的現有例項來確定新例項的類別。這被稱為最近鄰分類方法。

有時會使用多個最近鄰，並且最近的 k 個鄰域（如果類別是數值型，則為距離加權平均值）中的多數類別將被建立到新例項中。這被定義為 k-最近鄰方法。

當名義屬性存在時，必須提出該屬性多個值之間的“距離”。各種屬性將比其他屬性更重要，並且通常通過幾種類型的屬性加權在距離度量中反映出來。從訓練組中更改合適的屬性權重是基於例項的學習中的一個重要問題。

基於例項的表示的一個明顯的侷限性是它們沒有建立顯式學習的架構。例項與距離度量相結合，將邊界劃分為例項區域，這些區域分析一個類別與另一個類別的區別，這是一種顯式知識描述的型別。

例如，給定每個兩個類別中的一個例項，最近鄰規則有效地沿著連線例項的線的垂直平分線劃分例項區域。給定每個類別中的多個例項，空間將被一組線分割，這些線定義了連線一個類別的例項與另一個類別的例項的選定線的垂直平分線。

Ginni

更新於： 2022年2月10日

880 次瀏覽

開啟您的職業生涯

透過完成課程獲得認證

廣告

© . All rights reserved.