什麼是強化學習?它與監督學習和無監督學習有什麼區別?
在強化學習方法中,訓練好的智慧體與特定環境互動,並根據該環境的當前狀態採取行動。
強化學習的工作原理如下:
- 首先,你需要為智慧體準備一組特定的策略。
- 現在讓智慧體觀察環境的當前狀態。
- 根據智慧體的觀察結果,選擇最優策略,並執行合適的動作。
- 根據採取的動作,智慧體將獲得獎勵或懲罰。
- 如有必要,更新步驟 1 中使用的策略集。重複步驟 1-4 的過程,直到智慧體學習並採用最優策略。
如我們所知,監督學習方法在訓練過程中同時使用訓練資料及其關聯的輸出。但無監督學習方法不需要任何標籤或響應以及訓練資料,它們從給定的原始資料中學習模式和關係。而在強化學習方法中,智慧體以離散步驟與特定環境互動。
如果我們談論輸出,監督學習方法的預測基於類別型別,無監督學習方法發現潛在模式,但在強化學習方法中,存在一個獎勵和動作系統,學習智慧體在其中工作。
廣告
資料結構
網路
關係型資料庫管理系統
作業系統
Java
iOS
HTML
CSS
Android
Python
C 程式設計
C++
C#
MongoDB
MySQL
Javascript
PHP