機器學習 - 基本概念



眾所周知,機器學習是人工智慧的一個子集,它涉及訓練計算機演算法以自動學習資料中的模式和關係。以下是機器學習的一些基本概念:

資料

資料是機器學習的基礎。沒有資料,演算法就沒有學習物件。資料可以有多種形式,包括結構化資料(如電子表格和資料庫)和非結構化資料(如文字和影像)。用於訓練機器學習演算法的資料的質量和數量是至關重要的因素,它們會顯著影響演算法的效能。

特徵

在機器學習中,特徵是用於描述輸入資料的變數或屬性。目標是選擇最相關和資訊豐富的特徵,以便演算法能夠做出準確的預測或決策。特徵選擇是機器學習過程中的一個關鍵步驟,因為演算法的效能在很大程度上取決於所用特徵的質量和相關性。

模型

機器學習模型是輸入資料(特徵)和輸出(預測或決策)之間關係的數學表示。模型是使用訓練資料集建立的,然後使用單獨的驗證資料集進行評估。目標是建立一個能夠準確推廣到新的、未見資料上的模型。

訓練

訓練是教機器學習演算法做出準確預測或決策的過程。這是透過向演算法提供大型資料集並允許它從資料中的模式和關係中學習來完成的。在訓練期間,演算法會調整其內部引數,以最大程度地減少其預測輸出與實際輸出之間的差異。

測試

測試是評估機器學習演算法在之前從未見過的單獨資料集上的效能的過程。目標是確定演算法對新的、未見資料進行泛化的程度。如果演算法在測試資料集中表現良好,則認為它是一個成功的模型。

過擬合

過擬合是指機器學習模型過於複雜,並且過於擬合訓練資料。這可能導致在新的、未見資料上的效能下降,因為模型過於專門化於訓練資料集。為了防止過擬合,重要的是使用驗證資料集來評估模型的效能,並使用正則化技術來簡化模型。

欠擬合

欠擬合是指機器學習模型過於簡單,無法捕獲資料中的模式和關係。這可能導致訓練和測試資料集上的效能下降。為了防止欠擬合,我們可以使用多種技術,例如增加模型複雜度、收集更多資料、減少正則化和特徵工程。

需要注意的是,防止欠擬合是在模型複雜度和可用資料量之間進行權衡。增加模型複雜度可以幫助防止欠擬合,但是如果沒有足夠的資料來支援增加的複雜度,則可能會導致過擬合。因此,重要的是監控模型的效能並根據需要調整複雜度。

為什麼要讓機器學習?以及何時讓機器學習?

我們已經討論了機器學習的需求,但另一個問題出現了,在什麼情況下我們必須讓機器學習?在某些情況下,我們需要機器以高效和龐大的規模做出資料驅動的決策。以下是一些使機器學習更有效的場景:

缺乏人類專業知識

我們希望機器學習並做出資料驅動的決策的第一個場景可能是缺乏人類專業知識的領域。例如,在未知區域或空間行星中的導航。

動態場景

有些場景本質上是動態的,即它們會隨著時間的推移而不斷變化。對於這些場景和行為,我們希望機器學習並做出資料驅動的決策。例如,組織中的網路連線和基礎設施可用性。

難以將專業知識轉化為計算任務

在許多領域,人類都擁有自己的專業知識;但是,他們無法將這種專業知識轉化為計算任務。在這種情況下,我們需要機器學習。例如,語音識別、認知任務等領域。

機器學習模型

在討論機器學習模型之前,我們需要了解米切爾教授給出的以下ML正式定義:

“如果計算機程式在某些任務類T中,根據效能度量P,其效能隨著經驗E而提高,則稱該計算機程式從經驗E中學習。”

上述定義基本上關注三個引數,也是任何學習演算法的主要組成部分,即任務(T)、效能(P)和經驗(E)。在這種情況下,我們可以將此定義簡化為:

ML是AI的一個領域,它包含以下學習演算法:

  • 提高其效能(P)

  • 在執行某些任務(T)時

  • 隨著時間的推移以及經驗(E)

基於以上,下圖表示一個機器學習模型:

Machine Learning Model

現在讓我們更詳細地討論它們:

任務(T)

從問題的角度來看,我們可以將任務T定義為要解決的現實世界問題。問題可以是任何東西,例如在特定位置找到最佳房屋價格或找到最佳營銷策略等。另一方面,如果我們談論機器學習,則任務的定義是不同的,因為很難透過傳統的程式設計方法解決基於ML的任務。

當任務T基於過程並且系統必須遵循在資料點上進行操作的過程時,則稱該任務T為基於ML的任務。基於ML的任務示例包括分類、迴歸、結構化註釋、聚類、轉錄等。

經驗 (E)

顧名思義,它是從提供給演算法或模型的資料點中獲得的知識。一旦提供了資料集,模型將迭代執行並學習一些內在模式。這樣獲得的學習稱為經驗 (E)。類比人類學習,我們可以將其視為人類從各種屬性(如情境、關係等)中學習或獲得經驗的情況。監督學習、無監督學習和強化學習是一些學習或獲得經驗的方法。我們的機器學習模型或演算法獲得的經驗將用於解決任務 T。

效能 (P)

機器學習演算法應該隨著時間的推移執行任務並積累經驗。衡量機器學習演算法是否按預期執行的指標是其效能 (P)。P 本質上是一個定量指標,用於說明模型如何使用其經驗 E 執行任務 T。許多指標有助於理解機器學習效能,例如準確率得分、F1 得分、混淆矩陣、精確率、召回率、靈敏度等。

廣告