構建整合分類器的有哪些方法?
其核心思想是從初始資料構建多個分類器,然後在描述未知樣本時聚合它們的預測結果。整合分類器的構建方法如下:
**透過操作訓練集**——這種方法透過根據某種取樣分佈對初始資料進行重取樣來生成多個訓練集。取樣分佈決定了樣本被選入訓練集的機率,並且在不同的試驗中可以變化。使用特定的學習演算法從每個訓練集中構建一個分類器。Bagging和Boosting是操作訓練集的整合方法的例項。
**透過操作輸入特徵**——這種方法選擇輸入特徵的子集來形成每個訓練集。子集可以選擇隨機,或者依賴於領域專家的建議。多項研究表明,這種方法在包含大量冗餘特徵的資料集中效果非常好。隨機森林是一種操作輸入特徵的整合技術,它需要決策樹作為其基本分類器。
**透過操作類別標籤**——當多個類別足夠大的時候可以使用這種方法。透過隨機將類別標籤細分為兩個不相交的子集(例如A0和A1),將訓練資料轉換為二元分類問題。
將類別標籤屬於子集A0的訓練樣本定義為類別0,而將類別標籤屬於子集A1的訓練樣本定義為類別1。重新標記的樣本用於訓練基本分類器。透過反覆進行類別重新標記和模型構建步驟多次,可以獲得基本分類器的整合。
當出現測試樣本時,每個基本分類器Ci都可以預測其類別標籤。如果測試樣本被預測為類別0,那麼所有屬於A0的類別都將獲得一票。
**透過操作學習演算法**——可以操作多種學習演算法,使得在相同的訓練資料上多次使用該演算法可以產生多個模型。例如,人工神經網路可以透過修改其網路拓撲結構或神經元之間連線的初始權重來建立多個模型。類似地,可以透過在樹生長過程中注入隨機性來組裝決策樹的整合。
前三種方法是一些分類器通用的技術,而第四種方法是基於所使用的分類器型別。基本分類器的方法可以順序地(一個接一個)或並行地(同時)建立。
第一步是從初始資料D生成訓練集。根據所使用的整合方法型別,訓練集與D完全相同或略有不同。訓練集的大小保持與初始資料相同,但樣本的分佈可能不相同,即某些樣本在訓練集中可能出現多次,而其他樣本可能一次也不出現。
資料結構
網路
關係資料庫管理系統 (RDBMS)
作業系統
Java
iOS
HTML
CSS
Android
Python
C語言程式設計
C++
C#
MongoDB
MySQL
Javascript
PHP