強化學習(RL)是一種介於有監督學習和無監督學習之間的機器學習演算法。它透過不斷試錯和學習來解決問題。在訓練過程中,強化學習會採取一系列決策,並根據執行的操作獲得獎勵或懲罰。其目標是最大化總獎勵。強化學習具有自主學習與適應能力,能夠在動態環境下做出最佳化決策。與傳統的監督學習相比,強化學習更適用於沒有明確標籤的問題,並且可以在長期決策問題中取得良好的效果。
強化學習的核心是根據代理人執行的操作來強制執行行為,代理人根據行動對整體目標的正面影響來獲得獎勵。
強化學習演算法主要有兩種:
#基於模型的演算法
基於模型的演算法使用轉換和獎勵函數來估計最佳策略。在基於模型的強化學習中,代理人可以存取環境模型,即從一種狀態到另一種狀態所需執行的操作、附加的機率和相應的獎勵。它們允許強化學習代理透過提前思考來提前計劃。
無模型演算法
無模型演算法是在對環境動態的了解非常有限的情況下找到最優策略。沒有任何過渡或獎勵來判斷最佳政策。直接根據經驗估計最優策略,即只有代理與環境之間的交互,沒有任何獎勵函數的提示。
無模型強化學習應該應用於環境資訊不完整的場景,如自動駕駛汽車,在這種情況下,無模型演算法優於其他技術。
#馬可夫決策過程(MDP)
馬可夫決策過程是一種強化學習演算法,它為我們提供了一種形式化順序決策的方法。這種形式化是強化學習解決的問題的基礎。馬可夫決策過程(MDP)中涉及的元件是一個稱為代理人的決策者,它與其所在的環境進行互動。
在每個時間戳記中,代理程式將獲得環境狀態的一些表示。給定此表示,代理程式選擇要執行的操作。然後環境會轉變為某種新狀態,而代理人會因其先前的操作而獲得獎勵。關於馬可夫決策過程需要注意的重要一點是,它不擔心即時獎勵,而是旨在最大化整個軌蹟的總獎勵。
貝爾曼方程式
貝爾曼方程式是一類強化學習演算法,特別適用於確定性環境。給定狀態的值是透過代理人所處的狀態下可採取的最大行動來決定的。代理的目的是選擇將使價值最大化的行動。
因此,它需要增加狀態中最佳動作獎勵,並添加一個隨著時間的推移減少其獎勵的折扣因子。每次代理採取行動時,它都會回到下一個狀態。
該方程式不是對多個時間步求和,而是簡化了價值函數的計算,使我們能夠透過將複雜問題分解為更小的遞歸子問題來找到最佳解決方案。
Q-Learning
Q-Learning結合了價值函數,品質根據給定當前狀態和代理程式擁有的最佳可能策略的預期未來值分配給狀態-動作對作為Q。一旦代理學習了這個Q函數,它就會尋找在特定狀態下產生最高品質的最佳可能動作。
透過最優Q函數就可以透過應用強化學習演算法來決定最優策略,以找到使每個狀態的值最大化的動作。
以上是強化學習的定義、分類與演算法框架的詳細內容。更多資訊請關注PHP中文網其他相關文章!