機器學習中的假設

在機器學習中，假設是一個對問題的擬議解釋或解決方案。它是一個暫定的假設或想法，可以使用資料進行測試和驗證。在監督學習中，假設是演算法用來對未見資料進行預測的模型。

機器學習中的假設通常表示為將輸入資料對映到輸出預測的函式。換句話說，它定義了輸入和輸出變數之間的關係。機器學習的目標是找到能夠很好地泛化到未見資料的最佳假設。

什麼是假設？

假設是一個假設或想法，用作對某事的可能解釋，可以對其進行測試以檢視其是否可能為真。假設通常基於某些證據。假設的一個簡單示例是假設：“房價與其平方英尺成正比”。

機器學習中的假設

在機器學習中，主要是監督學習中，假設通常表示為將輸入資料對映到輸出預測的函式。換句話說，它定義了輸入和輸出變數之間的關係。機器學習的目標是找到能夠很好地泛化到未見資料的最佳假設。

在監督學習中，假設(h)可以用數學方式表示如下：

$$\mathrm{h(x) \: = \: \hat{y}}$$

這裡x是輸入，ŷ是預測值。

假設函式(h)

機器學習模型由其假設函式定義。假設函式是一個接受輸入並返回輸出的數學函式。對於簡單線性迴歸問題，假設可以表示為輸入特徵('x')的線性函式。

$$\mathrm{h(x) \: = \: w_{0} \: + \: w_{1}x}$$

其中w₀和w₁是引數（權重），'x'是輸入特徵。

對於多元線性迴歸問題，模型可以用數學方式表示如下：

$$\mathrm{h(x) \: = \: w_{0} \: + \: w_{1}x \: + \: \dotso \: + \: w_{n}x_{n}}$$

其中，

w₀, w₁, ..., w_n是引數。
x₁, x₂, ..., x_n是輸入資料（特徵）
n是訓練樣本的總數
h(x)是假設函式

機器學習過程試圖找到引數的最佳值，以最小化成本函式。

假設空間(H)

所有可能假設的集合稱為假設空間或集合。機器學習過程試圖在所有可能的假設中找到最佳擬合假設。

對於線性迴歸模型，假設包括所有可能的線性函式。

找到最佳假設的過程稱為模型訓練或學習。在訓練過程中，演算法調整模型引數以最小化誤差或損失函式，該函式衡量預測輸出與實際輸出之間的差異。

機器學習中假設的型別

機器學習中主要有兩種型別的假設：

1. 零假設 (H₀)

零假設是預設假設或解釋，即輸入特徵與輸出變數之間沒有關係。在機器學習過程中，我們試圖拒絕零假設以支援另一個假設。如果“p值”小於顯著性水平(α)，則拒絕零假設。

2. 備擇假設 (H₁)

備擇假設是零假設的直接反駁。備擇假設是一個假設，它假設輸入資料和輸出（目標值）之間存在顯著關係。當我們拒絕零假設時，我們接受備擇假設。當p值小於顯著性水平時，我們拒絕零假設並接受備擇假設。

機器學習中的假設檢驗

假設檢驗確定資料是否充分支援特定假設。以下是機器學習中假設檢驗的步驟：

陳述零假設和備擇假設 - 定義零假設H₀和備擇假設H₁。
選擇顯著性水平(α) - 顯著性水平是當零假設為真時拒絕零假設的機率。通常，α的值為0.05 (5%)或0.01 (1%)。
計算檢驗統計量 - 根據資料和假設型別計算t統計量或z統計量。
確定p值 - p值衡量反對零假設的強度。如果p值小於顯著性水平，則拒絕零假設。
做出決定 - p值小表示特徵與目標變數之間存在顯著關係。拒絕零假設。

如何找到最佳假設？

使用梯度下降等最佳化技術來尋找最佳假設。最佳假設是最小化成本函式或誤差函式的假設。

例如，線上性迴歸中，均方誤差 (MSE) 用作成本函式 (J(w))。它定義為

$$\mathrm{J(x) \: = \: \frac{1}{2n}\displaystyle \sum \limits_{i=0}^n \left(h(x_{i}) \: - \: y_{i}\right)^{2}}$$

其中，

h(x_i)是第i個數據樣本或觀測值的預測輸出。
y_i是第i個樣本的實際目標值。
n是訓練資料的數量。

在這裡，目標是找到最小化成本函式的w的最佳值。使用這些最佳引數值w表示的假設將是最佳假設。

良好假設的特性

假設在機器學習模型的成功中起著至關重要的作用。一個好的假設應該具有以下特性：

泛化能力 − 模型應該能夠對未見資料做出準確預測。
簡潔性 − 模型應該簡潔易懂，便於理解和解釋。
魯棒性 − 模型應該能夠處理資料中的噪聲和異常值。
可擴充套件性 − 模型應該能夠高效地處理大量資料。

許多型別的機器學習演算法可以用來生成假設，包括線性迴歸、邏輯迴歸、決策樹、支援向量機、神經網路等等。

模型訓練完成後，可以用於對新資料進行預測。但是，在實際應用中使用模型之前，務必評估模型的效能。這可以透過在單獨的驗證集上測試模型或使用交叉驗證技術來實現。

列印頁面

機器學習中的假設

什麼是假設？

機器學習中的假設

假設函式(h)

假設空間(H)

機器學習中假設的型別

1. 零假設 (H0)

2. 備擇假設 (H1)

機器學習中的假設檢驗

如何找到最佳假設？

良好假設的特性

1. 零假設 (H₀)

2. 備擇假設 (H₁)