在機器學習的強化學習中,Q 表格如何幫助確定“智慧體”的下一個動作?
我們之前瞭解了 Q 學習是如何工作的,藉助 Q 值和 Q 表格。Q 學習是一種強化學習演算法,包含一個需要採取行動以達到最優解的“智慧體”。這是藉助作為神經網路存在的 Q 表格實現的。它有助於採取使獎勵最大化的正確步驟,從而達到最優解。
現在,讓我們看看智慧體如何使用策略來決定它需要採取的下一步以實現最佳結果。
策略會考慮所有可能採取的動作的 Q 值,這些動作基於智慧體當前所處的狀態。
Q 值越高,動作越好。
有時,如果策略已經擁有采取下一步所需的資訊,則會選擇忽略 Q 表格。
相反,它會選擇採取另一個隨機動作並尋找更高的潛在獎勵。
當劇集開始時,智慧體採取隨機動作,因為 Q 表格尚未填充,並且不會存在太多資訊。
但隨著時間的推移,Q 表格逐漸被填充。
由於 Q 表格被填充,智慧體對如何與環境互動以獲得最大獎勵有了更多瞭解。
在智慧體採取每個新動作後,都會藉助貝爾曼方程更新 Q 值。
重要的是要理解,更新的 Q 值是基於新獲得的獎勵和相對於新狀態的 Q 值的最大可能值。
Q 表格非常龐大,因為它包含棋盤上所有可能的配置和移動。這將佔用系統中大量的記憶體。因此,使用神經網路來儲存 Q 表格,幫助為每個狀態向智慧體建議最佳動作。
由於使用了神經網路,強化學習演算法在 Dota 2 和圍棋等任務上取得了更好的效能。
廣告