強化學習 – 人工智慧的另一個有力分支
“強化學習”是人工智慧(機器學習)領域的一個分支。受行為心理學啟發,該領域使軟體代理和機器能夠確定行為,並據此採取行動,最終最大化其效能。簡單來說,計算機可以透過**實驗**以及環境對如何做事做出的反應來自行推斷/學習,並在每次改進時不斷適應,從而實現最大化。例如,訓練計算機控制遊戲、安排工作(如電梯排程)以及控制肢體。
強化學習 (RL)
RL 由心理學家愛德華·桑代克在 100 多年前記錄下來。這項技術並非讓程式設計師告訴它該做什麼,而是讓計算機/軟體代理自行執行任務,透過緩慢地找出最佳方法。互動存在於兩個元素之間——環境和學習代理。在此過程中,代理會受到環境的獎勵,稱為強化訊號。在獎勵的基礎上,代理利用知識併為下一個行動做出選擇。從本質上講,計算機可以像人類一樣學習,而無需明確的訓練。強化學習過程中也會有對人工智慧體的懲罰,但透過不斷地嘗試和錯誤,代理會學習並找到最佳方法(基於原始輸入)。
不斷進行選擇,同時區分好壞。表示由 Q 網路完成,該網路估計總獎勵。隨著深度學習的結合,這項技術現在變得越來越強大,深度學習使用大型模擬神經網路來識別資料中的模式/趨勢,並執行計算機的學習任務。

最好的例子之一是 Alphabet 的子公司 DeepMind 開發的 AlphaGo,它在 2016 年擊敗了世界上最優秀的圍棋人類棋手。這使得全世界都開始認識到 RL 的重要性,因為用程式碼實現極其複雜的圍棋遊戲實際上是不可能的。同樣,對於大型和複雜的任務,計算變得不可行。從能夠以安全和精確的方式執行 RL 的自我改進汽車,到無需手動程式設計即可使用的機器人,這項技術還可以確定資料中心裝置所需的配置。RL 的其他參與者包括 Mobileye、OpenAI、Google 和 Uber。Google 和 DeepMind 還共同努力提高其資料中心的能源效率。這是透過一種 RL 演算法實現的,該演算法可以從收集到的資料中學習,透過模擬進行實驗,並最終建議何時以及如何操作冷卻系統。
RL 代理的“因果關係”步驟
- 人工智慧體檢測輸入狀態(RL 首先識別並制定問題)。
- 下一步由要採取的策略決定。
- 然後執行操作,並提供獎勵/懲罰以及相應的強化。
- 記錄資訊狀態。
- 最後,可以進一步調整最佳操作以提高結果。
RL 系統的無監督、開發和探索
RL 是一種無監督學習形式,其中代理被留置在提供的環境中學習,並透過逐漸調整來學習。此外,RL 代理試圖透過開發和探索過程來學習。開發意味著一旦代理取得了滿意的結果並獲得獎勵,它就可以再次利用相同的技術來取得結果。探索意味著 RL 代理可能會嘗試不同的策略,這些策略可能帶來更好的獎勵和認可,從而探索各種情況。這兩種策略必須共同發揮作用。
侷限性
RL 也存在侷限性。能夠儲存值的記憶體成本可能很複雜,因為問題本身就很複雜。此外,類似的行為也發生得太頻繁,而必須引入模組化以防止重複。感知的限制因素(感知混淆)最終會影響演算法的功能。

商業利益
RL 最終是最大化效能的機器學習演算法。它可以廣泛應用於
**製造業** – 機器人在揀選貨物並將其放置在正確位置時使用 RL – 一旦正確完成,它們就會以精確的方式繼續該方法;
**庫存管理** – 空間利用對於電子商務和零售商至關重要 – RL 允許使用可以減少庫存和檢索產品時間的演算法,從而提高倉庫運營效率;
**金融** – RL 有助於評估交易策略和最佳化財務目標;
**配送管理** – RL 解決拆分配送車輛路徑問題 – Q 學習透過為合適的客戶提供一輛車輛來進行管理;
**動態定價** – RL 透過需求、供應和與客戶的互動來促進動態定價的策略/最佳化;
**電子商務個性化** – RL 有助於分析消費者行為,並根據興趣定製產品和服務;
**醫療行業** – RL 演算法解決了動態治療方案 (DTR) 問題,並處理臨床資料以根據患者的輸入決定治療策略。
RL 確實具有創新性和目標導向性,重點是從與環境的互動中學習,從而推動業務價值。它可能是現實人工智慧的浮力。
資料結構
網路
關係型資料庫管理系統
作業系統
Java
iOS
HTML
CSS
Android
Python
C 程式設計
C++
C#
MongoDB
MySQL
Javascript
PHP