強化學習演算法

強化學習演算法是一種機器學習演算法，用於訓練智慧體在環境中做出最佳決策。Q學習、策略梯度方法和蒙特卡洛方法等演算法通常用於強化學習。目標是最大化智慧體隨時間的累積獎勵。

什麼是強化學習 (RL)？

強化學習是一種機器學習方法，其中智慧體（軟體實體）透過執行動作並監控結果來學習解釋環境。對於每個好的動作，智慧體都會獲得積極反饋，對於每個壞的動作，智慧體都會獲得消極反饋。它受到動物如何從經驗中學習的啟發，根據其行為的後果做出決策。

強化學習演算法可以分為兩大類：基於模型的和無模型的。區別在於它們如何識別最佳策略 π −

基於模型的強化學習演算法 − 智慧體建立環境模型並預測各種狀態下動作的結果。獲取模型後，智慧體可以使用它來制定策略並預測未來結果，而無需直接與環境互動。這種方法將提高決策效率，因為它不完全依賴於反覆試驗。
無模型的強化學習演算法 − 該模型不維護環境模型。相反，它透過與環境的互動來獲取策略或價值函式。

以下是一些重要的基於模型的最佳化和控制演算法：

動態規劃是一個數學框架，用於解決複雜問題，尤其是在決策和控制場景中。它有一組演算法，可以用於確定智慧體瞭解環境所有資訊（即智慧體具有完美的環境模型）時的最優策略。強化學習中動態規劃的一些演算法包括：

值迭代是一種用於計算最優策略的動態規劃演算法。它根據智慧體將遵循最優策略的假設來計算每個狀態的值。更新策略基於貝爾曼方程：

$$ \mathrm{ V(s) = \max_{a} \sum_{s',r} P(s',r|s,a) (R(s,a,s') + \gamma V(s')) } $$

策略迭代是一個兩步最佳化過程，用於同時找到最優值函式 V_Π 和對應的最優策略 Π。所涉及的步驟包括：

此過程在評估和改進之間交替進行，直到策略達到最優策略。

蒙特卡洛樹搜尋是一種啟發式搜尋演算法。它使用樹形結構來探索可能的動作和狀態。這使得 MCTS 尤其適用於在複雜環境中進行決策。

以下是一些重要的無模型演算法：

蒙特卡洛學習是強化學習中的一種技術，它專注於基於實際經驗來估計價值函式和制定策略，而不是依賴於環境的模型或動力學。蒙特卡洛技術通常使用對與環境互動的多個情景進行平均的概念來競爭預期回報的估計值。

時序差分 (TD) 學習是無模型強化學習技術之一，其目標是透過使用智慧體在其與環境互動過程中收集的經驗來評估策略的價值函式。與僅在整個情景完成後才更新價值估計的蒙特卡洛方法相比，TD 學習在每次採取行動和收到獎勵後都會增量更新，使其成為最佳決策選擇。

SARSA 是一種用於學習動作值函式 Q(s,a) 的線上、無模型強化學習演算法方法。它代表狀態-動作-獎勵-狀態-動作，並根據智慧體在其與環境互動過程中實際採取的動作更新其動作值估計。

Q學習是一種無模型的離線強化學習技術，用於學習最優動作值函式 Q*(s,a)，它給出任何狀態-動作對的最大預期獎勵。Q學習的主要目標是透過評估最優動作值函式來發現最佳策略，該函式表示在執行動作 a 並隨後遵循最優策略時，從狀態 s 獲得的最大預期獎勵。

策略梯度最佳化是一類強化學習演算法，其重點是直接最佳化策略而不是學習價值函式。這些技術修改引數策略的引數以最佳化預期回報。REINFORCE 演算法是強化學習中一種基於蒙特卡洛方法的策略梯度演算法。

基於模型和無模型強化學習演算法之間的主要區別在於：

特徵	基於模型的 RL	無模型的 RL
學習過程	首先，學習環境動態的模型，並使用該模型預測未來的動作。	完全基於反覆試驗，直接從觀察到的轉換和獎勵中學習策略或價值函式。
效率	由於它可以使用學習到的模型模擬許多互動，因此可能會獲得更高的樣本效率。	需要額外的真實世界互動來發現最優策略。
複雜度	更復雜，因為它需要學習和維護環境的精確模型。	相對容易，因為它不必執行模型訓練。
利用環境	主動構建環境模型以預測結果並採取進一步行動。	不構建任何環境模型，直接依賴於以往經驗。
適應性	能夠適應環境中不斷變化的狀態。	由於依賴以往經驗，適應可能需要更長時間。
計算需求	由於模型開發和學習的複雜性，通常需要更多的計算資源。	通常計算需求較低，專注於直接從經驗中學習。

列印頁面