
- 機器學習基礎
- ML - 首頁
- ML - 簡介
- ML - 開始
- ML - 基本概念
- ML - 生態系統
- ML - Python庫
- ML - 應用
- ML - 生命週期
- ML - 必備技能
- ML - 實現
- ML - 挑戰與常見問題
- ML - 侷限性
- ML - 真實案例
- ML - 資料結構
- ML - 數學基礎
- ML - 人工智慧
- ML - 神經網路
- ML - 深度學習
- ML - 獲取資料集
- ML - 分類資料
- ML - 資料載入
- ML - 資料理解
- ML - 資料準備
- ML - 模型
- ML - 監督學習
- ML - 無監督學習
- ML - 半監督學習
- ML - 強化學習
- ML - 監督學習與無監督學習
- 機器學習資料視覺化
- ML - 資料視覺化
- ML - 直方圖
- ML - 密度圖
- ML - 箱線圖
- ML - 相關矩陣圖
- ML - 散點矩陣圖
- 機器學習統計學
- ML - 統計學
- ML - 均值、中位數、眾數
- ML - 標準差
- ML - 百分位數
- ML - 資料分佈
- ML - 偏度和峰度
- ML - 偏差和方差
- ML - 假設
- ML中的迴歸分析
- ML - 迴歸分析
- ML - 線性迴歸
- ML - 簡單線性迴歸
- ML - 多元線性迴歸
- ML - 多項式迴歸
- ML中的分類演算法
- ML - 分類演算法
- ML - 邏輯迴歸
- ML - K近鄰演算法(KNN)
- ML - 樸素貝葉斯演算法
- ML - 決策樹演算法
- ML - 支援向量機
- ML - 隨機森林
- ML - 混淆矩陣
- ML - 隨機梯度下降
- ML中的聚類演算法
- ML - 聚類演算法
- ML - 基於質心的聚類
- ML - K均值聚類
- ML - K中心點聚類
- ML - 均值漂移聚類
- ML - 層次聚類
- ML - 基於密度的聚類
- ML - DBSCAN聚類
- ML - OPTICS聚類
- ML - HDBSCAN聚類
- ML - BIRCH聚類
- ML - 親和傳播
- ML - 基於分佈的聚類
- ML - 凝聚層次聚類
- ML中的降維
- ML - 降維
- ML - 特徵選擇
- ML - 特徵提取
- ML - 向後剔除法
- ML - 向前特徵構建
- ML - 高相關性過濾
- ML - 低方差過濾
- ML - 缺失值比率
- ML - 主成分分析
- 強化學習
- ML - 強化學習演算法
- ML - 利用與探索
- ML - Q學習
- ML - REINFORCE演算法
- ML - SARSA強化學習
- ML - 演員評論家方法
- 深度強化學習
- ML - 深度強化學習
- 量子機器學習
- ML - 量子機器學習
- ML - 使用Python的量子機器學習
- 機器學習雜項
- ML - 效能指標
- ML - 自動工作流
- ML - 提升模型效能
- ML - 梯度提升
- ML - 自舉匯聚(Bagging)
- ML - 交叉驗證
- ML - AUC-ROC曲線
- ML - 網格搜尋
- ML - 資料縮放
- ML - 訓練和測試
- ML - 關聯規則
- ML - Apriori演算法
- ML - 高斯判別分析
- ML - 成本函式
- ML - 貝葉斯定理
- ML - 精度和召回率
- ML - 對抗性
- ML - 堆疊
- ML - 輪次
- ML - 感知器
- ML - 正則化
- ML - 過擬合
- ML - P值
- ML - 熵
- ML - MLOps
- ML - 資料洩露
- ML - 機器學習的盈利模式
- ML - 資料型別
- 機器學習 - 資源
- ML - 快速指南
- ML - 速查表
- ML - 面試問題
- ML - 有用資源
- ML - 討論
機器學習中的假設
在機器學習中,假設是一個對問題的擬議解釋或解決方案。它是一個暫定的假設或想法,可以使用資料進行測試和驗證。在監督學習中,假設是演算法用來對未見資料進行預測的模型。
機器學習中的假設通常表示為將輸入資料對映到輸出預測的函式。換句話說,它定義了輸入和輸出變數之間的關係。機器學習的目標是找到能夠很好地泛化到未見資料的最佳假設。
什麼是假設?
假設是一個假設或想法,用作對某事的可能解釋,可以對其進行測試以檢視其是否可能為真。假設通常基於某些證據。假設的一個簡單示例是假設:“房價與其平方英尺成正比”。
機器學習中的假設
在機器學習中,主要是監督學習中,假設通常表示為將輸入資料對映到輸出預測的函式。換句話說,它定義了輸入和輸出變數之間的關係。機器學習的目標是找到能夠很好地泛化到未見資料的最佳假設。
在監督學習中,假設(h)可以用數學方式表示如下:
$$\mathrm{h(x) \: = \: \hat{y}}$$
這裡x是輸入,ŷ是預測值。
假設函式(h)
機器學習模型由其假設函式定義。假設函式是一個接受輸入並返回輸出的數學函式。對於簡單線性迴歸問題,假設可以表示為輸入特徵('x')的線性函式。
$$\mathrm{h(x) \: = \: w_{0} \: + \: w_{1}x}$$
其中w0和w1是引數(權重),'x'是輸入特徵。
對於多元線性迴歸問題,模型可以用數學方式表示如下:
$$\mathrm{h(x) \: = \: w_{0} \: + \: w_{1}x \: + \: \dotso \: + \: w_{n}x_{n}}$$
其中,
- w0, w1, ..., wn是引數。
- x1, x2, ..., xn是輸入資料(特徵)
- n是訓練樣本的總數
- h(x)是假設函式
機器學習過程試圖找到引數的最佳值,以最小化成本函式。
假設空間(H)
所有可能假設的集合稱為假設空間或集合。機器學習過程試圖在所有可能的假設中找到最佳擬合假設。
對於線性迴歸模型,假設包括所有可能的線性函式。
找到最佳假設的過程稱為模型訓練或學習。在訓練過程中,演算法調整模型引數以最小化誤差或損失函式,該函式衡量預測輸出與實際輸出之間的差異。
機器學習中假設的型別
機器學習中主要有兩種型別的假設:
1. 零假設 (H0)
零假設是預設假設或解釋,即輸入特徵與輸出變數之間沒有關係。在機器學習過程中,我們試圖拒絕零假設以支援另一個假設。如果“p值”小於顯著性水平(α),則拒絕零假設。
2. 備擇假設 (H1)
備擇假設是零假設的直接反駁。備擇假設是一個假設,它假設輸入資料和輸出(目標值)之間存在顯著關係。當我們拒絕零假設時,我們接受備擇假設。當p值小於顯著性水平時,我們拒絕零假設並接受備擇假設。
機器學習中的假設檢驗
假設檢驗確定資料是否充分支援特定假設。以下是機器學習中假設檢驗的步驟:
- 陳述零假設和備擇假設 - 定義零假設H0和備擇假設H1。
- 選擇顯著性水平(α) - 顯著性水平是當零假設為真時拒絕零假設的機率。通常,α的值為0.05 (5%)或0.01 (1%)。
- 計算檢驗統計量 - 根據資料和假設型別計算t統計量或z統計量。
- 確定p值 - p值衡量反對零假設的強度。如果p值小於顯著性水平,則拒絕零假設。
- 做出決定 - p值小表示特徵與目標變數之間存在顯著關係。拒絕零假設。
如何找到最佳假設?
找到最佳假設的過程稱為模型訓練或學習。在訓練過程中,演算法調整模型引數以最小化誤差或損失函式,該函式衡量預測輸出與實際輸出之間的差異。
使用梯度下降等最佳化技術來尋找最佳假設。最佳假設是最小化成本函式或誤差函式的假設。
例如,線上性迴歸中,均方誤差 (MSE) 用作成本函式 (J(w))。它定義為
$$\mathrm{J(x) \: = \: \frac{1}{2n}\displaystyle \sum \limits_{i=0}^n \left(h(x_{i}) \: - \: y_{i}\right)^{2}}$$
其中,
- h(xi)是第i個數據樣本或觀測值的預測輸出。
- yi是第i個樣本的實際目標值。
- n是訓練資料的數量。
在這裡,目標是找到最小化成本函式的w的最佳值。使用這些最佳引數值w表示的假設將是最佳假設。
良好假設的特性
假設在機器學習模型的成功中起著至關重要的作用。一個好的假設應該具有以下特性:
- 泛化能力 − 模型應該能夠對未見資料做出準確預測。
- 簡潔性 − 模型應該簡潔易懂,便於理解和解釋。
- 魯棒性 − 模型應該能夠處理資料中的噪聲和異常值。
- 可擴充套件性 − 模型應該能夠高效地處理大量資料。
許多型別的機器學習演算法可以用來生成假設,包括線性迴歸、邏輯迴歸、決策樹、支援向量機、神經網路等等。
模型訓練完成後,可以用於對新資料進行預測。但是,在實際應用中使用模型之前,務必評估模型的效能。這可以透過在單獨的驗證集上測試模型或使用交叉驗證技術來實現。