- 機器學習基礎
- ML - 首頁
- ML - 簡介
- ML - 入門指南
- ML - 基本概念
- ML - 生態系統
- ML - Python庫
- ML - 應用
- ML - 生命週期
- ML - 必備技能
- ML - 實施
- ML - 挑戰與常見問題
- ML - 侷限性
- ML - 真實案例
- ML - 資料結構
- ML - 數學基礎
- ML - 人工智慧
- ML - 神經網路
- ML - 深度學習
- ML - 獲取資料集
- ML - 分類資料
- ML - 資料載入
- ML - 資料理解
- ML - 資料準備
- ML - 模型
- ML - 監督學習
- ML - 無監督學習
- ML - 半監督學習
- ML - 強化學習
- ML - 監督學習與無監督學習對比
- 機器學習資料視覺化
- ML - 資料視覺化
- ML - 直方圖
- ML - 密度圖
- ML - 箱線圖
- ML - 相關矩陣圖
- ML - 散點矩陣圖
- 機器學習統計學
- ML - 統計學
- ML - 均值、中位數、眾數
- ML - 標準差
- ML - 百分位數
- ML - 資料分佈
- ML - 偏度和峰度
- ML - 偏差和方差
- ML - 假設
- 機器學習中的迴歸分析
- ML - 迴歸分析
- ML - 線性迴歸
- ML - 簡單線性迴歸
- ML - 多元線性迴歸
- ML - 多項式迴歸
- 機器學習中的分類演算法
- ML - 分類演算法
- ML - 邏輯迴歸
- ML - K近鄰演算法(KNN)
- ML - 樸素貝葉斯演算法
- ML - 決策樹演算法
- ML - 支援向量機
- ML - 隨機森林
- ML - 混淆矩陣
- ML - 隨機梯度下降
- 機器學習中的聚類演算法
- ML - 聚類演算法
- ML - 基於中心的聚類
- ML - K均值聚類
- ML - K中心點聚類
- ML - 均值漂移聚類
- ML - 層次聚類
- ML - 基於密度的聚類
- ML - DBSCAN聚類
- ML - OPTICS聚類
- ML - HDBSCAN聚類
- ML - BIRCH聚類
- ML - 親和傳播
- ML - 基於分佈的聚類
- ML - 凝聚層次聚類
- 機器學習中的降維
- ML - 降維
- ML - 特徵選擇
- ML - 特徵提取
- ML - 向後消除法
- ML - 前向特徵構造
- ML - 高相關性過濾器
- ML - 低方差過濾器
- ML - 缺失值比率
- ML - 主成分分析
- 強化學習
- ML - 強化學習演算法
- ML - 利用與探索
- ML - Q學習
- ML - REINFORCE演算法
- ML - SARSA強化學習
- ML - 演員-評論家方法
- 深度強化學習
- ML - 深度強化學習
- 量子機器學習
- ML - 量子機器學習
- ML - 使用Python的量子機器學習
- 機器學習雜項
- ML - 效能指標
- ML - 自動工作流程
- ML - 提升模型效能
- ML - 梯度提升
- ML - 自舉匯聚(Bagging)
- ML - 交叉驗證
- ML - AUC-ROC曲線
- ML - 網格搜尋
- ML - 資料縮放
- ML - 訓練和測試
- ML - 關聯規則
- ML - Apriori演算法
- ML - 高斯判別分析
- ML - 成本函式
- ML - 貝葉斯定理
- ML - 精度和召回率
- ML - 對抗性
- ML - 堆疊
- ML - 輪次
- ML - 感知器
- ML - 正則化
- ML - 過擬合
- ML - P值
- ML - 熵
- ML - MLOps
- ML - 資料洩露
- ML - 機器學習的貨幣化
- ML - 資料型別
- 機器學習 - 資源
- ML - 快速指南
- ML - 速查表
- ML - 面試問題
- ML - 有用資源
- ML - 討論
深度強化學習
什麼是深度強化學習?
深度強化學習 (Deep RL) 是機器學習的一個子集,它結合了強化學習和深度學習。深度強化學習解決了使計算代理能夠透過結合來自非結構化輸入資料的深度學習來學習決策的問題,而無需手動設計狀態空間。即使輸入量很大,深度強化學習演算法也能決定為最佳化目標而執行哪些操作。
深度強化學習的關鍵概念
深度強化學習的構建塊包括所有能夠增強學習和代理決策能力的方面。有效的環境是由以下元素協作產生的:
- 智慧體 - 學習者和決策者,與環境互動。該智慧體根據策略採取行動並獲得經驗。
- 環境 - 智慧體外部的系統,智慧體與其進行通訊。它根據智慧體的行為以獎勵或懲罰的形式向智慧體提供反饋。
- 狀態 - 表示環境在特定時刻的當前情況或條件,智慧體根據該狀態做出決策。
- 動作 - 智慧體做出的改變系統狀態的選擇。
- 策略 - 指導智慧體決策的計劃,將狀態對映到動作。
- 價值函式 - 估計智慧體在遵循特定策略時,從給定狀態可以獲得的預期累積獎勵。
- 模型 - 表示環境的動態,允許智慧體模擬動作和狀態的潛在結果以進行規劃。
- 探索-利用策略 - 一種決策方法,平衡探索新的動作以進行學習與利用已知的動作以獲得即時獎勵。
- 學習演算法 - 智慧體根據與環境互動獲得的經驗更新其價值函式或策略的方法。
- 經驗回放 - 一種技術,在訓練期間隨機抽取先前儲存的經驗,以增強學習穩定性並減少連續事件之間的相關性。
深度強化學習是如何工作的?
深度強化學習使用人工神經網路,它由多層節點組成,這些節點複製人腦中神經元的運作方式。這些節點透過反覆試驗的方法處理和傳遞資訊,以確定有效的結果。
在深度強化學習中,術語策略是指計算機根據從與環境互動中獲得的反饋而制定的策略。這些策略透過考慮當前狀態和動作集(包括各種選項)來幫助計算機做出決策。選擇這些選項後,會進行一個稱為“搜尋”的過程,計算機在此過程中評估不同的動作並觀察結果。這種協調學習、決策和表徵的能力可以為簡單地理解人腦如何運作提供新的見解。
架構是深度強化學習與眾不同的地方,它允許深度強化學習像人腦一樣學習。它包含多層神經網路,這些神經網路能夠高效地處理未標記和非結構化資料。
深度強化學習演算法列表
以下是深度強化學習中一些重要演算法的列表:
- 深度Q網路
- 深度Q學習
- 雙深度Q學習
- 演員-評論家方法
- 深度確定性策略梯度
深度強化學習的應用
一些使用深度強化學習的突出領域包括:
遊戲
深度強化學習用於開發遠遠超出人類能力範圍的遊戲。使用深度強化學習設計的遊戲包括雅達利2600遊戲、圍棋、撲克等等。
機器人控制
這使用了強大的對抗性強化學習,其中智慧體學習在存在施加系統干擾的對手的情況下執行。目標是制定處理干擾的最佳策略。人工智慧機器人具有廣泛的應用,包括製造、供應鏈自動化、醫療保健等等。
自動駕駛汽車
深度強化學習是自動駕駛中涉及的關鍵概念之一。自動駕駛場景涉及理解環境、互動式代理、協商和動態決策,這隻有透過強化學習才能實現。
醫療保健
深度強化學習使醫療保健領域取得了許多進步,例如個性化藥物治療以最佳化患者的醫療保健,特別是對於患有慢性疾病的患者。
強化學習和深度強化學習的區別
下表突出顯示了強化學習 (RL) 和深度強化學習 (Deep RL) 之間的關鍵區別:
| 特徵 | 強化學習 | 深度強化學習 |
|---|---|---|
| 定義 | 它是機器學習的一個子集,它使用反覆試驗的方法進行決策。 | 它是強化學習的一個子集,它集成了深度學習以進行更復雜的決策。 |
| 函式逼近 | 它使用表格方法等簡單方法進行值估計。 | 它使用神經網路進行值估計,允許更復雜的表示。 |
| 狀態表示 | 它依賴於手動設計的特徵來表示環境。 | 它自動從原始輸入資料中學習相關特徵。 |
| 複雜性 | 它對於狀態/動作空間較小的簡單環境有效。 | 它在高維、複雜的環境中有效。 |
| 效能 | 它在簡單的環境中有效,但在具有大型和連續空間的環境中卻難以應對。 | 它擅長複雜的任務,包括電子遊戲或機器人控制。 |
| 應用 | 可用於簡單的遊戲等基本任務。 | 可用於高階應用,如自動駕駛、遊戲和機器人控制。 |