機器學習從業者面臨的各種挑戰是什麼?
雖然機器學習正在快速發展,但它仍有很長的路要走。其原因在於ML從業者在開發應用程式時面臨著各種挑戰。讓我們來看看這些挑戰——
- 資料收集——資料在開發任何機器學習應用程式中都扮演著最重要的角色。ML從業者的大部分工作都集中在收集高質量的資料。如果您是初學者並想嘗試機器學習,可以從Kaggle或UCI ML Repository中找到資料集。但是,如果您想實現實際案例場景或需要解決業務問題,則需要透過網路抓取或從客戶那裡收集資料。收集後,資料應被結構化並存儲在資料庫中。為此,ML從業者需要額外的大資料知識。
- 訓練資料質量——資料收集完成後,機器學習工程師需要做兩件事。一是為機器學習專案選擇合適的學習演算法,二是使用一些已獲取的資料來訓練模型。這裡最大的挑戰是選擇高質量的訓練資料。訓練資料的質量非常重要,因為使用低質量的資料會導致與資料預處理和特徵提取相關的問題。
- 非代表性訓練資料——訓練資料應該具有代表性,即它也應該能夠很好地概括新的案例(即將發生的案例)。對於每個ML從業者來說,尋找具有代表性的訓練資料都是一個嚴峻的挑戰,因為使用非代表性訓練資料會導致錯誤的預測。
- 選擇相關特徵——如果我們使用包含大量無關特徵的訓練資料,我們的ML模型將永遠無法給出預期的結果。特徵選擇,即選擇有助於ML專案成功的良好特徵,是重要的方面之一,也是ML從業者應該克服的另一個關鍵挑戰。
- 訓練資料的過擬合和欠擬合——過擬合問題發生在ML模型拾取訓練資料中的噪聲並將其作為概念學習時。而欠擬合問題,顧名思義,發生在它既沒有對訓練資料建模也沒有泛化到新資料時。ML從業者的目標應該是選擇一個處於欠擬合和過擬合之間最佳點的模型。
- 模型部署——對於許多ML從業者來說,另一個最大的挑戰是成功部署他們的ML應用程式。這可能是由於依賴項問題、對業務問題或底層模型的理解不足、ML模型不穩定等原因造成的。
廣告