什麼是距離函式?
距離是MBR計算相似度的方法。對於某些真實的距離度量,從點A到點B的距離,用d(A,B)表示,具有以下四個特徵:
定義明確 - 兩點之間的距離始終定義明確,並且是非負實數,d (A,B) ≥ 0。
同一性 - 從一個點到它自身的距離始終為零,因此d (A, A) = 0。
交換律 - 方向不會產生差異,因此從A到B的距離與從B到A的距離相同:d(A,B) = d(B,A)。例如,此特性排除了單行道。
三角不等式 - 從A到B的路徑上訪問中間點C永遠不會縮短距離,因此d (A,B) ≥ d(A,C) + d(C,B)。
對於MBR,點當然是資料庫中的資料。這種距離描述是計算相似度的基礎,但當這些約束中的一些被稍微修改時,MBR也能很好地工作。
例如,新聞報道定義案例研究中的距離函式不可交換,因此從新聞報道A到另一個B的距離並不總是與從B到A的距離相同。但是,相似性度量對於分類目的是有益的。
距離定義明確的事實意味著每個資料在資料庫中都有某個地方的鄰居,並且MBR需要鄰居才能工作。同一性屬性使距離符合直觀的概念,即給定資料最相似的資料是初始記錄本身。
交換律和三角不等式使最近鄰區域性且定義明確。將新資料插入資料庫不會使現有記錄更接近。相似性是每次僅保留兩個資料的問題。儘管距離度量可以發現最近鄰是定義明確的,但最近鄰集可能具有一些特殊的特徵。
鄰居集取決於資料距離函式如何組合區域距離函式。事實上,使用求和函式的第二近鄰是使用歐幾里得等的最遠鄰居。與求和或歸一化度量相比,歐幾里得度量傾向於偏向所有區域都關聯接近的鄰居。
求和、歐幾里得和歸一化函式還可以包含權重,以便每個區域對資料距離函式做出不同的貢獻。當某些權重等於1時,MBR 通常會產生良好的結果。但是,有時可以使用權重來包含先驗知識,包括懷疑對分類有巨大影響的特定欄位。
資料結構
網路
關係資料庫管理系統
作業系統
Java
iOS
HTML
CSS
Android
Python
C 程式設計
C++
C#
MongoDB
MySQL
Javascript
PHP