在機器學習中,Q學習相對於強化學習是什麼?


Q學習是一種強化學習演算法,其中包含一個“智慧體”,它採取必要的行動以達到最佳解決方案。

強化學習是“半監督”機器學習演算法的一部分。當向強化學習演算法提供輸入資料集時,它會從中學習;否則,它會從經驗和環境中學習。

當“強化學習智慧體”執行一個動作時,它會根據預測是否正確(或採取正確的路徑或採取成本最低的路徑)而獲得獎勵或懲罰(獎勵和懲罰是不同的,因為它們取決於可用的資料)。

如果“強化學習智慧體”獲得獎勵,它會朝著相同的方向或類似的方向移動。否則,如果智慧體受到懲罰,它就會理解它給出的解決方案並不正確或最佳,並且它需要找到更好的路徑或輸出。

強化學習智慧體與其環境互動,對某些問題採取行動,從而確保獎勵的總量最大化。

為了更好地理解這一點,讓我們以國際象棋遊戲為例。其思想是,遊戲中的每個玩家都採取行動以獲勝(進行將軍、拿下對手的所有棋子等等)。“智慧體”將移動棋子,並改變棋子的狀態。我們可以將棋盤視覺化為一個具有頂點的圖,“智慧體”從一個邊移動到另一個邊。

Q學習使用Q表來幫助智慧體理解和決定它應該採取的下一步行動。Q表由行和列組成,其中每一行對應於每個棋盤配置,列對應於智慧體可以採取的所有可能的移動(動作)。Q表還包含一個稱為Q值的值,該值包含智慧體在採取行動並從當前狀態移動到下一個狀態時獲得的預期獎勵。

它是如何工作的?

讓我們瞭解它的工作原理。

在遊戲開始時,Q表用隨機值初始化。

接下來,對於每個回合:

  • 觀察智慧體的初始狀態
  • 對於回合中的每個步驟:
    • 根據Q表中存在的策略選擇新的動作
    • 觀察智慧體獲得的獎勵,並且智慧體移動到新的狀態
    • 使用“貝爾曼方程”更新Q表中存在的Q值

這將持續到達到特定回合的最終階段。

注意——在一個例子中,一個回合可以理解為一整局國際象棋。否則,它只是一個問題的完整工作。

更新於:2020年12月10日

3K+ 次瀏覽

啟動你的職業生涯

透過完成課程獲得認證

開始
廣告