什麼是強化學習?它與監督學習和無監督學習有什麼區別?


在強化學習方法中,訓練好的智慧體與特定環境互動,並根據該環境的當前狀態採取行動。

強化學習的工作原理如下:

  • 首先,你需要為智慧體準備一組特定的策略。
  • 現在讓智慧體觀察環境的當前狀態。
  • 根據智慧體的觀察結果,選擇最優策略,並執行合適的動作。
  • 根據採取的動作,智慧體將獲得獎勵或懲罰。
  • 如有必要,更新步驟 1 中使用的策略集。重複步驟 1-4 的過程,直到智慧體學習並採用最優策略。

如我們所知,監督學習方法在訓練過程中同時使用訓練資料及其關聯的輸出。但無監督學習方法不需要任何標籤或響應以及訓練資料,它們從給定的原始資料中學習模式和關係。而在強化學習方法中,智慧體以離散步驟與特定環境互動。

如果我們談論輸出,監督學習方法的預測基於類別型別,無監督學習方法發現潛在模式,但在強化學習方法中,存在一個獎勵和動作系統,學習智慧體在其中工作。

更新於:2021年11月24日

721 次檢視

開啟你的 職業生涯

透過完成課程獲得認證

開始學習
廣告

© . All rights reserved.