什麼是二元變數?
二元變數只有兩種狀態,例如 0 或 1,其中 0 表示變數不存在,1 表示變數存在。例如,給定變數吸菸者來定義患者,1 表示患者吸菸,而 0 表示患者不吸菸。將二元變數視為區間尺度可能會導致誤導性的聚類結果。因此,為二元資料定義的方法對於計算差異性至關重要。
有一種方法涉及從給定的二元資料計算差異矩陣。如果一些二元變數被認為具有相似的權重,它可以具有 2x2 列聯表,其中 q 是物件 i 和 j 都類似於 1 的變數數,r 是物件 i 類似於 1 但物件 j 類似於 0 的變數數,s 是物件 i 類似於 0 但物件 j 類似於 1 的變數數,t 是物件 i 和 j 都類似於 0 的變數數。變數總數為 p,其中 p = q+r+s+t。
如果二元變數的兩種狀態都具有同等價值並具有相同的權重,則該二元變數是對稱的;也就是說,對哪種結果必須編碼為 0 或 1 沒有偏好。依賴於對稱二元變數的差異性稱為對稱二元差異性。
如果狀態的結果不重要,包括疾病測試的陽性和陰性結果,則二元變數是非對稱的。按照慣例,我們將主要結果(通常是最稀有的結果)編碼為 1(例如,HIV 陽性),其他結果編碼為 0(例如,HIV 陰性)。
給定兩個非對稱二元變數,兩個 1 的併發(正匹配)比兩個 0 的併發(負匹配)更重要。因此,此類二元變數被視為“一元”(好像只有一個狀態)。
基於此類變數的差異性稱為非對稱二元差異性,其中多個負匹配 t 被視為不重要,因此在計算中被忽略,如公式所示
$$\mathrm{d(i, j)=\:\frac{r+s}{q+r+s}}$$
計算兩個二元變數之間的距離可以依賴於相似性的概念,而不是差異性的概念。例如,物件 i 和 j 之間的非對稱二元相似性,或 sim(i, j),可以計算如下,
$$\mathrm{sim(i, j)=\:\frac{q}{q+r+s}=1-d(i,j)}$$。
係數 sim(i, j) 稱為 Jaccard 係數。
資料結構
網路
關係資料庫管理系統 (RDBMS)
作業系統
Java
iOS
HTML
CSS
Android
Python
C 程式設計
C++
C#
MongoDB
MySQL
Javascript
PHP