機器學習中的情景記憶和深度Q網路詳解


引言

近年來,深度神經網路 (DNN) 在強化學習演算法中取得了顯著進展。然而,為了獲得理想的結果,這些演算法存在樣本效率低下的問題。一種很有前景的解決方法是基於情景記憶的強化學習,它使智慧體能夠快速掌握最佳動作。情景記憶深度Q網路 (EMDQN) 是一種受生物啟發的 RL 演算法,它利用情景記憶來增強智慧體訓練。研究表明,EMDQN 顯著提高了樣本效率,從而提高了發現有效策略的可能性。它透過僅使用傳統方法所需互動次數 1/5 的 Atari 遊戲中取得了最先進的效能,超過了常規 DQN 和其他基於情景記憶的 RL 演算法。

理解樣本效率低下的挑戰

在 RL 研究中,深度神經網路透過將卷積神經網路與 Q 學習相結合,在 Atari 遊戲中實現了人類水平的效能,從而徹底改變了研究。儘管取得了這些成就,但 RL 演算法仍然面臨樣本效率低下的挑戰。例如,DQN 需要與環境進行數百萬次的互動才能學習和泛化出強大的策略。在 DQN 中,學習速度較慢以確保穩定性,但這會導致學習速度變慢。

情景控制:一種資料高效的方法

研究提出情景控制 (EC) 作為一種資料高效的決策問題解決方案。在 EC 中,在訓練期間會記住最有益的情景,並在評估期間重播。與引數值函式不同,EC 依賴於查詢表來儲存和更新情景記憶。與基於 DNN 的 RL 方法相比,基於表的情景控制存在泛化能力有限和記憶體可擴充套件性問題。

介紹情景記憶深度Q網路 (EMDQN)

本文的目的是介紹 EMDQN,這是一種利用情景記憶來增強智慧體訓練的新型 RL 演算法。人腦透過多個相互作用和競爭以制定最佳策略的學習系統來做出決策和控制運動。EMDQN 結合了 DQN 的泛化能力和情景控制。EMDQN 透過將情景記憶資訊提煉到引數模型中來實現優越的學習效率。與現有方法相比,我們的演算法能夠更快、更少地使用訓練資料來學習魯棒的策略。此外,EMDQN 還解決了基於 Q 學習的智慧體中 Q 值過高估計的問題。

在 EMDQN 中,紋狀體作為推理目標,海馬體作為記憶目標。這些目標作為智慧體的學習目標。

EMDQN 使用的損失函式定義如下:

L = α(Qθ - S)^2 + β(Qθ - H)^2

這裡,Qθ 是由 θ 引數化的值函式,它表示在給定狀態下采取動作的估計值。

推理目標 S 計算如下:

S(st, at) = rt + γ max(Qθ(st+1, a')), for all possible actions a'

這裡,rt 是在狀態 st 中採取動作 at 後收到的即時獎勵,γ 是折扣因子,max(Qθ(st+1, a')) 表示下一個狀態 st+1 中所有可能動作的最大估計值。

記憶目標 H 定義為最佳記憶回報:

H(st, at) = max(Ri(st, at)), for i ∈ {1, 2, ..., E}

這裡,Ri(st, at) 表示在第 i 個情景中,在狀態 st 中採取動作 at 時獲得的未來回報。E 表示智慧體經歷的總情景數。

損失函式結合了值函式 Qθ 與推理目標 S 之間的平方差,以及 Qθ 與記憶目標 H 之間的平方差。權重 α 和 β 控制每個目標在整體損失函式中的相對重要性。

透過最小化此損失函式,智慧體旨在根據即時獎勵和最佳記憶回報來改進值函式 Qθ 的估計。這允許智慧體快速抓住高回報策略,同時仍然受益於神經網路的慢速最佳化以進行狀態泛化。

EMDQN 的優勢

通常,情景記憶用於直接控制,但我們旨在透過利用它來提高 DQN 的效率。DQN 的幾個關鍵方面可以從情景記憶中受益。

  • 獎勵傳播緩慢 - 像 Q 學習這樣的傳統值引導方法提供的更新基於一步或附近的多步獎勵,導致資料效率有限。為了克服這個問題,我們建議使用蒙特卡洛 (MC) 回報作為學習目標。MC 回報提供了更好的獎勵傳播,但它引入了更高的方差。我們的挑戰是有效地利用 MC 回報,而不會因高方差而影響穩定性。

  • 單一學習模型 - 大多數 RL 演算法依賴於單一學習模型。可擴充套件的深度 RL 方法(如 DQN 和 A3C)模擬人腦中的紋狀體並學習神經決策系統。另一方面,像 MFEC 和 NEC 這樣的基於表格的方法模擬海馬體並將經驗儲存在記憶系統中。在本文中,我們認為在訓練期間結合這兩種方法可以更好地複製人腦的工作機制。

  • 樣本效率低 - 與真實環境互動在時間和資源方面可能代價高昂。傳統的 DQN 演算法需要與模擬環境進行數百萬次互動才能收斂。雖然像優先經驗回放和基於模型的 RL 這樣的技術可以在一定程度上減輕取樣成本,但仍然需要更有效的方法來利用樣本並增強學習。

為了應對這些挑戰,我們提出了情景記憶深度 Q 網路 (EMDQN),它利用基於表格的情景記憶來加速智慧體的訓練。透過將情景記憶整合到學習過程中,我們的智慧體可以快速抓住有價值的經驗並利用它們進行更有效的學習。

總之,我們的研究重點是利用情景記憶來增強 DQN 的獎勵傳播、學習模型架構和樣本效率。透過利用情景記憶,EMDQN 有可能加速訓練過程並提高 RL 智慧體的整體效能。

結論

情景記憶深度 Q 網路 (EMDQN) 引入了一種受生物啟發的 RL 演算法,它利用情景記憶來改進智慧體訓練。透過結合 DQN 和情景控制的優勢,EMDQN 提供了增強的樣本效率,並在訓練時間和準確性方面優於現有方法。這種演算法在使 RL 更適用於現實世界場景方面具有巨大的潛力。憑藉其在 Atari 遊戲中的出色表現,EMDQN 為更高效、更有效的強化學習演算法鋪平了道路。

更新於:2023年10月17日

88 次瀏覽

開啟你的職業生涯

完成課程獲得認證

開始學習
廣告