分類是如何工作的?
分類是一種資料探勘方法,它將元素分配到一組資料中,以幫助進行更有效的預測和分析。當有兩個目標類別時,通常稱為二元分類。
當可以預測超過兩個類別時,尤其是在模式識別問題中,這被定義為多項式分類。然而,多項式分類可用於分類響應資料,其中需要預測哪些類別在各種元素中具有最大機率的例項。
資料分類是一個兩階段的過程。在第一階段,構建一個分類器,定義預定的資料集類別或概念集合。這是學習階段(或訓練階段),其中分類演算法透過分析或“理解”由資料庫元組及其相關的類標籤組成的訓練集來開發分類器。
元組 X 由一個 n 維屬性向量 X = (x1, x2, … xn) 描述,定義了從 n 個數據庫屬性 A1, A2, ... An 對元組進行的 n 次測量。
每個元組 X 都被認為屬於由另一個數據庫屬性(稱為類標籤屬性)決定的預定義類。類標籤屬性是離散值且無序的。它是分類的,因為每個值都表示一個類別或分類。
構成訓練集的單個元組被定義為訓練元組,並從正在分析的資料庫中選擇。在分類框架中,資料元組可以定義為樣本、例項、資料點或物件。
因為每個訓練元組的類標籤都是已知的,所以這一步稱為監督學習。它可以與無監督學習(或聚類)進行比較,在無監督學習中,每個訓練元組的類標籤是未知的,並且事先無法知道要學習的類別數量或集合。
在第二階段,可以使用該模型進行分類。首先,預測分類器的預測精度。如果使用訓練集來計算分類器的精度,則此估計可能過於樂觀,因為分類器傾向於過度擬合記錄(即,在學習過程中,它可能會合並訓練記錄中的一些特定異常,而這些異常在完整的通用資料集中不存在)。
因此,使用測試集,由測試元組及其相關的類標籤組成。這些元組是從通用資料集中隨機選擇的。它們與訓練元組分開,這意味著它們不用於構建分類器。
廣告