REINFORCE 演算法

什麼是 REINFORCE 演算法？

REINFORCE 演算法是一種策略梯度演算法，屬於強化學習領域，基於蒙特卡羅方法。實現該演算法的簡單方法是採用梯度上升來改進策略，透過直接增加預期累積獎勵來實現。該演算法不需要環境模型，因此被歸類為無模型方法。

下面簡要描述了一些與 REINFORCE 演算法相關的關鍵概念：

REINFORCE 演算法由 Ronald J. Williams 於 1992 年提出。該演算法的主要目標是透過調整策略引數來最大化預期累積獎勵。該演算法訓練智慧體在環境中做出順序決策。REINFORCE 演算法的逐步分解如下：

該演算法首先從與環境互動的完整情節中取樣，其中智慧體遵循其當前策略。情節包括一系列狀態、動作和獎勵，直到狀態終止。

智慧體記錄互動軌跡 - (s₁,a₁,r₁,......s_t,a_t,r_t)，其中 s 表示狀態，a 表示採取的動作，r 表示在每個步驟中獲得的獎勵。

回報 G_t 回報表示智慧體期望從時間 t 開始獲得的累積獎勵。

G_t = r_t + γr_t+1 + γ²r_t+2

計算預期回報相對於策略引數的梯度。為了實現這一點，需要計算所選行動的對數似然的梯度。

在計算預期累積獎勵的梯度後，策略引數會朝著增加預期獎勵的方向更新。

重複上述步驟，直到狀態終止。與專注於即時獎勵的時間差分學習（Q 學習和 SARSA）不同，REINFORCE 允許智慧體從狀態、動作和獎勵的完整序列中學習。

REINFORCE 演算法的一些優點包括：

REINFORCE 演算法的一些缺點包括：

列印頁面