深度強化學習

什麼是深度強化學習？

深度強化學習 (Deep RL) 是機器學習的一個子集，它結合了強化學習和深度學習。深度強化學習解決了使計算代理能夠透過結合來自非結構化輸入資料的深度學習來學習決策的問題，而無需手動設計狀態空間。即使輸入量很大，深度強化學習演算法也能決定為最佳化目標而執行哪些操作。

深度強化學習的關鍵概念

深度強化學習的構建塊包括所有能夠增強學習和代理決策能力的方面。有效的環境是由以下元素協作產生的：

智慧體 - 學習者和決策者，與環境互動。該智慧體根據策略採取行動並獲得經驗。
環境 - 智慧體外部的系統，智慧體與其進行通訊。它根據智慧體的行為以獎勵或懲罰的形式向智慧體提供反饋。
狀態 - 表示環境在特定時刻的當前情況或條件，智慧體根據該狀態做出決策。
動作 - 智慧體做出的改變系統狀態的選擇。
策略 - 指導智慧體決策的計劃，將狀態對映到動作。
價值函式 - 估計智慧體在遵循特定策略時，從給定狀態可以獲得的預期累積獎勵。
模型 - 表示環境的動態，允許智慧體模擬動作和狀態的潛在結果以進行規劃。
探索-利用策略 - 一種決策方法，平衡探索新的動作以進行學習與利用已知的動作以獲得即時獎勵。
學習演算法 - 智慧體根據與環境互動獲得的經驗更新其價值函式或策略的方法。
經驗回放 - 一種技術，在訓練期間隨機抽取先前儲存的經驗，以增強學習穩定性並減少連續事件之間的相關性。

深度強化學習是如何工作的？

深度強化學習使用人工神經網路，它由多層節點組成，這些節點複製人腦中神經元的運作方式。這些節點透過反覆試驗的方法處理和傳遞資訊，以確定有效的結果。

在深度強化學習中，術語策略是指計算機根據從與環境互動中獲得的反饋而制定的策略。這些策略透過考慮當前狀態和動作集（包括各種選項）來幫助計算機做出決策。選擇這些選項後，會進行一個稱為“搜尋”的過程，計算機在此過程中評估不同的動作並觀察結果。這種協調學習、決策和表徵的能力可以為簡單地理解人腦如何運作提供新的見解。

架構是深度強化學習與眾不同的地方，它允許深度強化學習像人腦一樣學習。它包含多層神經網路，這些神經網路能夠高效地處理未標記和非結構化資料。

深度強化學習演算法列表

以下是深度強化學習中一些重要演算法的列表：

深度Q網路
深度Q學習
雙深度Q學習
演員-評論家方法
深度確定性策略梯度

深度強化學習的應用

一些使用深度強化學習的突出領域包括：

遊戲

深度強化學習用於開發遠遠超出人類能力範圍的遊戲。使用深度強化學習設計的遊戲包括雅達利2600遊戲、圍棋、撲克等等。

機器人控制

這使用了強大的對抗性強化學習，其中智慧體學習在存在施加系統干擾的對手的情況下執行。目標是制定處理干擾的最佳策略。人工智慧機器人具有廣泛的應用，包括製造、供應鏈自動化、醫療保健等等。

自動駕駛汽車

深度強化學習是自動駕駛中涉及的關鍵概念之一。自動駕駛場景涉及理解環境、互動式代理、協商和動態決策，這隻有透過強化學習才能實現。

醫療保健

深度強化學習使醫療保健領域取得了許多進步，例如個性化藥物治療以最佳化患者的醫療保健，特別是對於患有慢性疾病的患者。

強化學習和深度強化學習的區別

下表突出顯示了強化學習 (RL) 和深度強化學習 (Deep RL) 之間的關鍵區別：

特徵	強化學習	深度強化學習
定義	它是機器學習的一個子集，它使用反覆試驗的方法進行決策。	它是強化學習的一個子集，它集成了深度學習以進行更復雜的決策。
函式逼近	它使用表格方法等簡單方法進行值估計。	它使用神經網路進行值估計，允許更復雜的表示。
狀態表示	它依賴於手動設計的特徵來表示環境。	它自動從原始輸入資料中學習相關特徵。
複雜性	它對於狀態/動作空間較小的簡單環境有效。	它在高維、複雜的環境中有效。
效能	它在簡單的環境中有效，但在具有大型和連續空間的環境中卻難以應對。	它擅長複雜的任務，包括電子遊戲或機器人控制。
應用	可用於簡單的遊戲等基本任務。	可用於高階應用，如自動駕駛、遊戲和機器人控制。

列印頁面