機器學習中的假設



在機器學習中,假設是一個對問題的擬議解釋或解決方案。它是一個暫定的假設或想法,可以使用資料進行測試和驗證。在監督學習中,假設是演算法用來對未見資料進行預測的模型。

機器學習中的假設通常表示為將輸入資料對映到輸出預測的函式。換句話說,它定義了輸入和輸出變數之間的關係。機器學習的目標是找到能夠很好地泛化到未見資料的最佳假設。

什麼是假設?

假設是一個假設或想法,用作對某事的可能解釋,可以對其進行測試以檢視其是否可能為真。假設通常基於某些證據。假設的一個簡單示例是假設:“房價與其平方英尺成正比”。

機器學習中的假設

在機器學習中,主要是監督學習中,假設通常表示為將輸入資料對映到輸出預測的函式。換句話說,它定義了輸入和輸出變數之間的關係。機器學習的目標是找到能夠很好地泛化到未見資料的最佳假設。

在監督學習中,假設(h)可以用數學方式表示如下:

$$\mathrm{h(x) \: = \: \hat{y}}$$

這裡x是輸入,ŷ是預測值。

假設函式(h)

機器學習模型由其假設函式定義。假設函式是一個接受輸入並返回輸出的數學函式。對於簡單線性迴歸問題,假設可以表示為輸入特徵('x')的線性函式。

$$\mathrm{h(x) \: = \: w_{0} \: + \: w_{1}x}$$

其中w0和w1是引數(權重),'x'是輸入特徵。

對於多元線性迴歸問題,模型可以用數學方式表示如下:

$$\mathrm{h(x) \: = \: w_{0} \: + \: w_{1}x \: + \: \dotso \: + \: w_{n}x_{n}}$$

其中,

  • w0, w1, ..., wn是引數。
  • x1, x2, ..., xn是輸入資料(特徵)
  • n是訓練樣本的總數
  • h(x)是假設函式

機器學習過程試圖找到引數的最佳值,以最小化成本函式。

假設空間(H)

所有可能假設的集合稱為假設空間或集合。機器學習過程試圖在所有可能的假設中找到最佳擬合假設。

對於線性迴歸模型,假設包括所有可能的線性函式。

找到最佳假設的過程稱為模型訓練或學習。在訓練過程中,演算法調整模型引數以最小化誤差或損失函式,該函式衡量預測輸出與實際輸出之間的差異。

機器學習中假設的型別

機器學習中主要有兩種型別的假設:

1. 零假設 (H0)

零假設是預設假設或解釋,即輸入特徵與輸出變數之間沒有關係。在機器學習過程中,我們試圖拒絕零假設以支援另一個假設。如果“p值”小於顯著性水平(α),則拒絕零假設。

2. 備擇假設 (H1)

備擇假設是零假設的直接反駁。備擇假設是一個假設,它假設輸入資料和輸出(目標值)之間存在顯著關係。當我們拒絕零假設時,我們接受備擇假設。當p值小於顯著性水平時,我們拒絕零假設並接受備擇假設。

機器學習中的假設檢驗

假設檢驗確定資料是否充分支援特定假設。以下是機器學習中假設檢驗的步驟:

  • 陳述零假設和備擇假設 - 定義零假設H0和備擇假設H1
  • 選擇顯著性水平(α) - 顯著性水平是當零假設為真時拒絕零假設的機率。通常,α的值為0.05 (5%)或0.01 (1%)。
  • 計算檢驗統計量 - 根據資料和假設型別計算t統計量或z統計量。
  • 確定p值 - p值衡量反對零假設的強度。如果p值小於顯著性水平,則拒絕零假設。
  • 做出決定 - p值小表示特徵與目標變數之間存在顯著關係。拒絕零假設。

如何找到最佳假設?

找到最佳假設的過程稱為模型訓練或學習。在訓練過程中,演算法調整模型引數以最小化誤差或損失函式,該函式衡量預測輸出與實際輸出之間的差異。

使用梯度下降等最佳化技術來尋找最佳假設。最佳假設是最小化成本函式或誤差函式的假設。

例如,線上性迴歸中,均方誤差 (MSE) 用作成本函式 (J(w))。它定義為

$$\mathrm{J(x) \: = \: \frac{1}{2n}\displaystyle \sum \limits_{i=0}^n \left(h(x_{i}) \: - \: y_{i}\right)^{2}}$$

其中,

  • h(xi)是第i個數據樣本或觀測值的預測輸出。
  • yi是第i個樣本的實際目標值。
  • n是訓練資料的數量。

在這裡,目標是找到最小化成本函式的w的最佳值。使用這些最佳引數值w表示的假設將是最佳假設。

良好假設的特性

假設在機器學習模型的成功中起著至關重要的作用。一個好的假設應該具有以下特性:

  • 泛化能力 − 模型應該能夠對未見資料做出準確預測。
  • 簡潔性 − 模型應該簡潔易懂,便於理解和解釋。
  • 魯棒性 − 模型應該能夠處理資料中的噪聲和異常值。
  • 可擴充套件性 − 模型應該能夠高效地處理大量資料。

許多型別的機器學習演算法可以用來生成假設,包括線性迴歸、邏輯迴歸、決策樹、支援向量機、神經網路等等。

模型訓練完成後,可以用於對新資料進行預測。但是,在實際應用中使用模型之前,務必評估模型的效能。這可以透過在單獨的驗證集上測試模型或使用交叉驗證技術來實現。

廣告