什麼是資料分類?


分類是一種資料探勘方法,用於預測資料例項的團隊成員資格。它是一個兩步過程。第一步,構建一個模型,定義一組預定的資料類或方法。該模型是透過考慮由屬性定義的資料庫元組來開發的。

每個元組都被認為屬於一個預定義的類,由其中一個屬性(稱為類標籤屬性)決定。在分類的框架中,資料元組也稱為樣本、示例或物件。用於開發模型的分析資料元組共同構成訓練資料集。構成訓練集的單個元組被稱為訓練樣本,並從樣本總體中隨機選擇。

由於每個訓練樣本的類標籤都已知,因此此過程也稱為監督學習。在無監督學習中,訓練樣本的類標籤是匿名的,並且要學習的多個類可能事先未知。

學習到的模型以分類規則、決策樹或數值公式的形式描述。例如,給定一個使用者信用資料資料庫,可以學習分類規則以將使用者識別為具有最佳或良好的信用評級。這些規則可用於對未來的資料樣本進行分類,並有助於更好地理解資料庫內容。

留出法是一種簡單的技術,它應用於一組具有類標籤的樣本的測試集。這些樣本是隨機選擇的,並且獨立於訓練樣本。模型在給定測試集上的效率是模型正確分類的測試集樣本的百分比。對於每個測試樣本,將已知的類標籤與學習模型對該樣本的類預測進行比較。

如果模型的效率估計依賴於訓練資料集,則該估計可能過於樂觀,因為學習模型容易過度擬合數據(即,它可能包含了訓練資料中的一些特定異常,而這些異常在整個樣本總體中不存在)。因此,使用測試集。

  • **學習** - 訓練資料由分類演算法進行分析。因此,類標籤屬性是信用評級,學習到的模型或分類器以分類規則的形式描述。

  • **分類** - 測試資料用於衡量分類規則的效率。如果效率被認為是可以接受的,則這些規則可用於對新的資料元組進行分類。

更新於: 2021-11-22

408 次瀏覽

開啟你的 職業生涯

透過完成課程獲得認證

開始學習
廣告