什麼是強化學習？它與監督學習和無監督學習有什麼區別？

機器學習人工智慧程式設計

在強化學習方法中，訓練好的智慧體與特定環境互動，並根據該環境的當前狀態採取行動。

強化學習的工作原理如下：

首先，你需要為智慧體準備一組特定的策略。
現在讓智慧體觀察環境的當前狀態。
根據智慧體的觀察結果，選擇最優策略，並執行合適的動作。
根據採取的動作，智慧體將獲得獎勵或懲罰。
如有必要，更新步驟 1 中使用的策略集。重複步驟 1-4 的過程，直到智慧體學習並採用最優策略。

如我們所知，監督學習方法在訓練過程中同時使用訓練資料及其關聯的輸出。但無監督學習方法不需要任何標籤或響應以及訓練資料，它們從給定的原始資料中學習模式和關係。而在強化學習方法中，智慧體以離散步驟與特定環境互動。

如果我們談論輸出，監督學習方法的預測基於類別型別，無監督學習方法發現潛在模式，但在強化學習方法中，存在一個獎勵和動作系統，學習智慧體在其中工作。

Gaurav Kumar

更新於：2021年11月24日

721 次檢視

開啟你的職業生涯

透過完成課程獲得認證

廣告

© . All rights reserved.