分類是如何工作的？

資料探勘資料結構資料庫

分類是一種資料探勘方法，它將元素分配到一組資料中，以幫助進行更有效的預測和分析。當有兩個目標類別時，通常稱為二元分類。

當可以預測超過兩個類別時，尤其是在模式識別問題中，這被定義為多項式分類。然而，多項式分類可用於分類響應資料，其中需要預測哪些類別在各種元素中具有最大機率的例項。

資料分類是一個兩階段的過程。在第一階段，構建一個分類器，定義預定的資料集類別或概念集合。這是學習階段（或訓練階段），其中分類演算法透過分析或“理解”由資料庫元組及其相關的類標籤組成的訓練集來開發分類器。

元組 X 由一個 n 維屬性向量 X = (x₁, x₂, … x_n) 描述，定義了從 n 個數據庫屬性 A₁, A₂, ... A_n 對元組進行的 n 次測量。

每個元組 X 都被認為屬於由另一個數據庫屬性（稱為類標籤屬性）決定的預定義類。類標籤屬性是離散值且無序的。它是分類的，因為每個值都表示一個類別或分類。

構成訓練集的單個元組被定義為訓練元組，並從正在分析的資料庫中選擇。在分類框架中，資料元組可以定義為樣本、例項、資料點或物件。

因為每個訓練元組的類標籤都是已知的，所以這一步稱為監督學習。它可以與無監督學習（或聚類）進行比較，在無監督學習中，每個訓練元組的類標籤是未知的，並且事先無法知道要學習的類別數量或集合。

在第二階段，可以使用該模型進行分類。首先，預測分類器的預測精度。如果使用訓練集來計算分類器的精度，則此估計可能過於樂觀，因為分類器傾向於過度擬合記錄（即，在學習過程中，它可能會合並訓練記錄中的一些特定異常，而這些異常在完整的通用資料集中不存在）。

因此，使用測試集，由測試元組及其相關的類標籤組成。這些元組是從通用資料集中隨機選擇的。它們與訓練元組分開，這意味著它們不用於構建分類器。

基尼係數

更新於：2022年2月16日

933 次瀏覽

開啟你的職業生涯

完成課程獲得認證

廣告