強化學習 – 人工智慧的另一個有力分支

“強化學習”是人工智慧（機器學習）領域的一個分支。受行為心理學啟發，該領域使軟體代理和機器能夠確定行為，並據此採取行動，最終最大化其效能。簡單來說，計算機可以透過**實驗**以及環境對如何做事做出的反應來自行推斷/學習，並在每次改進時不斷適應，從而實現最大化。例如，訓練計算機控制遊戲、安排工作（如電梯排程）以及控制肢體。

強化學習 (RL)

RL 由心理學家愛德華·桑代克在 100 多年前記錄下來。這項技術並非讓程式設計師告訴它該做什麼，而是讓計算機/軟體代理自行執行任務，透過緩慢地找出最佳方法。互動存在於兩個元素之間——環境和學習代理。在此過程中，代理會受到環境的獎勵，稱為強化訊號。在獎勵的基礎上，代理利用知識併為下一個行動做出選擇。從本質上講，計算機可以像人類一樣學習，而無需明確的訓練。強化學習過程中也會有對人工智慧體的懲罰，但透過不斷地嘗試和錯誤，代理會學習並找到最佳方法（基於原始輸入）。

不斷進行選擇，同時區分好壞。表示由 Q 網路完成，該網路估計總獎勵。隨著深度學習的結合，這項技術現在變得越來越強大，深度學習使用大型模擬神經網路來識別資料中的模式/趨勢，並執行計算機的學習任務。

最好的例子之一是 Alphabet 的子公司 DeepMind 開發的 AlphaGo，它在 2016 年擊敗了世界上最優秀的圍棋人類棋手。這使得全世界都開始認識到 RL 的重要性，因為用程式碼實現極其複雜的圍棋遊戲實際上是不可能的。同樣，對於大型和複雜的任務，計算變得不可行。從能夠以安全和精確的方式執行 RL 的自我改進汽車，到無需手動程式設計即可使用的機器人，這項技術還可以確定資料中心裝置所需的配置。RL 的其他參與者包括 Mobileye、OpenAI、Google 和 Uber。Google 和 DeepMind 還共同努力提高其資料中心的能源效率。這是透過一種 RL 演算法實現的，該演算法可以從收集到的資料中學習，透過模擬進行實驗，並最終建議何時以及如何操作冷卻系統。

RL 代理的“因果關係”步驟

人工智慧體檢測輸入狀態（RL 首先識別並制定問題）。
下一步由要採取的策略決定。
然後執行操作，並提供獎勵/懲罰以及相應的強化。
記錄資訊狀態。
最後，可以進一步調整最佳操作以提高結果。

RL 系統的無監督、開發和探索

RL 是一種無監督學習形式，其中代理被留置在提供的環境中學習，並透過逐漸調整來學習。此外，RL 代理試圖透過開發和探索過程來學習。開發意味著一旦代理取得了滿意的結果並獲得獎勵，它就可以再次利用相同的技術來取得結果。探索意味著 RL 代理可能會嘗試不同的策略，這些策略可能帶來更好的獎勵和認可，從而探索各種情況。這兩種策略必須共同發揮作用。

侷限性

RL 也存在侷限性。能夠儲存值的記憶體成本可能很複雜，因為問題本身就很複雜。此外，類似的行為也發生得太頻繁，而必須引入模組化以防止重複。感知的限制因素（感知混淆）最終會影響演算法的功能。

商業利益

RL 最終是最大化效能的機器學習演算法。它可以廣泛應用於

**製造業** – 機器人在揀選貨物並將其放置在正確位置時使用 RL – 一旦正確完成，它們就會以精確的方式繼續該方法；

**庫存管理** – 空間利用對於電子商務和零售商至關重要 – RL 允許使用可以減少庫存和檢索產品時間的演算法，從而提高倉庫運營效率；

**金融** – RL 有助於評估交易策略和最佳化財務目標；

**配送管理** – RL 解決拆分配送車輛路徑問題 – Q 學習透過為合適的客戶提供一輛車輛來進行管理；

**動態定價** – RL 透過需求、供應和與客戶的互動來促進動態定價的策略/最佳化；

**電子商務個性化** – RL 有助於分析消費者行為，並根據興趣定製產品和服務；

**醫療行業** – RL 演算法解決了動態治療方案 (DTR) 問題，並處理臨床資料以根據患者的輸入決定治療策略。

RL 確實具有創新性和目標導向性，重點是從與環境的互動中學習，從而推動業務價值。它可能是現實人工智慧的浮力。

karthikeya Boyini

更新於：2020 年 1 月 23 日

364 次檢視

開啟你的職業生涯

透過完成課程獲得認證

開始