強化學習中的貝爾曼方程是什麼?
任何接觸過強化學習 (RL) 的人都知道,貝爾曼方程是 RL 的一個重要組成部分,並在整個 RL 中以多種形式出現。透過合併幾個 RL 函式,貝爾曼方程有助於產生更計算化和更有效的結果。在這篇文章中,我們將首先回顧一些與強化學習相關的基本術語,然後深入探討強化學習中常用的方程,最後深入研究貝爾曼方程。
什麼是強化學習?
強化學習是一種機器學習形式,它教會模型在解決問題時選擇最佳行動方案。我們使用問題描述作為指導來建立一個環境。模型與這個環境互動並自行尋找解決方案,無需人工干預。只需在它朝著目標邁進時給予正向獎勵,在它遠離目標時給予負向獎勵,就能幫助它朝著正確的方向前進。讓我們用一個例子來更好地理解這一點。
回想一下,當你小時候第一次學習騎腳踏車時的情景。你的監護人或父母幫助你保持平衡,並偶爾給出指示。最重要的是,他們在學習過程中並沒有完全監督你。相反,你獨自犯錯,從中學習,並不斷嘗試。經過足夠的練習,你的大腦最終適應了這些新資訊,你終於能夠在兩側保持平衡地騎腳踏車了。
然而,這個學習過程既不是完全監督的,也不是完全無監督的。相反,這個學習是比較鬆散的控制。記住,強化學習 (RL) 是一個與監督學習和無監督學習不同的領域。當你從腳踏車上摔下來時,你意識到這不是正確的騎行方式,所以你嘗試了其他方法。當你能夠保持平衡更長時間時,你意識到自己正在做正確的事情。強化學習也遵循同樣的原理。RL 是一種“反覆試驗”的學習方法。雖然可以直接監督,但我們可以透過反饋(獎勵和懲罰)來彌補它,以增強學習效果。
強化學習的基本術語
在理解了強化學習 (RL) 的基本思想之後,讓我們來理解強化學習中使用的基本術語,這最終將引導我們得出 RL 的正式定義。
動作
在現實生活中,智慧體是指嘗試以最佳方式完成某事的事物。在我們的例子中,學習騎腳踏車的年輕孩子就是智慧體。
狀態
智慧體在每個時間步長執行的操作就是現實世界中的動作。對於學習走路的孩子來說,動作就是“行走”。
獎勵
在現實生活中,獎勵只不過是根據智慧體的行為傳送給智慧體的一種反饋形式。對那些行為成功且有可能導致成功的智慧體給予正向獎勵,反之亦然。這類似於一個孩子在成功地騎腳踏車並保持平衡更長時間後,從年長的孩子那裡得到讚揚。
環境
在現實生活中,環境指的是智慧體的外部環境或智慧體執行的實際環境。
理解貝爾曼方程
貝爾曼方程是強化學習的基本構成要素之一。該方程向我們展示了,鑑於我們當前的狀況,並且假設我們在當前以及每個後續步驟中都盡力而為,我們可以預期獲得的長期收益。
貝爾曼方程可以用來確定我們是否已經達到目標,因為強化學習的主要目標是最大化長期獎勵。當選擇最佳行動方案時,當前狀態的值就會顯現出來。對於確定性情況,貝爾曼方程如下所示。(此處應插入貝爾曼方程公式)
V(s)=maxa(R(s,a)+γV(s′))
該方程包含三個部分:
最大函式,選擇最大化獎勵的動作 (max a)
折扣因子是一個可以修改的超引數,用來突出長期效益或讓模型關注唾手可得的成果,並促進最佳短期解決方案。(gamma)
根據所選動作和當前狀態計算獎勵的函式 (R(s, a))
貝爾曼方程是一個遞迴函式,因為它自身呼叫 (s' 是下一步的狀態)。
當前步驟中計算的函式與未來的步驟相關而不是之前的步驟,這似乎是矛盾的。
這是因為只有在我們達到終止狀態後才能計算動作的值。在這個階段,我們反轉這個過程,在每個步驟中應用折扣因子並新增獎勵函式,直到我們到達第一步。最終的組成部分是總獎勵。
結論
強化學習本質上是機器學習的一個子集,它關乎於做出邏輯決策,選擇在特定情況下采取的最佳效能或行動方案。它還可以幫助你使用貝爾曼方程來提高一部分總收益。