什麼是主動學習?
主動學習是一種重複性的監督學習型別,適用於資料充足但類別標籤稀缺或獲取成本高昂的情況。學習演算法是主動的,因為它可以仔細地向用戶(例如,人工標註者)查詢標籤。這種方法用於理解一個概念的多個元組的數量少於典型監督學習中所需的數量。
它用於保持成本降低,主動學習者的目標是利用盡可能少的標記示例來實現高精度。令D為所有正在考慮的資料。有幾種方法可以繼續對D進行主動學習。
假設D的一個小子集已進行類別標記。此集合由L表示。U是D中未標記資料的集合。它也被定義為未標記資料的池。主動學習者以L作為原始訓練集開始。它可以使用查詢服務從U中仔細選擇一個或多個數據樣本,並向人工標註者請求它們的標籤。
新標記的樣本被插入到L中,學習者在標準監督方法中需要這些樣本。該過程繼續進行。主動學習的目標是使用盡可能少的標記元組來實現高精度。主動學習演算法通常使用學習曲線來計算,學習曲線將精度繪製為查詢的多個例項的函式。
一些主動學習研究的目標是如何選擇要查詢的資料元組。已經提出了各種框架。不確定性取樣很常見,其中主動學習者選擇查詢其對如何標記最不確定的元組。
有幾種方法可以減少版本空間,即與觀察到的訓練元組一致的所有假設的子集。它可以遵循一個決策理論方法來計算預期誤差減少。
這可以選擇能夠導致總預測錯誤數量最大減少的元組,包括透過降低U上的預期熵。這種方法的影響是計算量更大。
遷移學習的目標是從一個或多個源函式中獲取知識,並將該知識應用於目標任務。傳統的學習方法為每個新的分類任務構建一個新的分類器,這取決於可用的類別標記訓練和測試資訊。
遷移學習演算法在為新的(目標)任務構建分類器時應用有關源服務的知識。生成的分類器需要更少的訓練資料和更少的訓練時間。傳統的學習演算法認為訓練資料和測試資料來自相同的分佈和相同的特徵區域。因此,如果分佈發生變化,則此類技術需要從頭開始重建模型。