分層強化學習?分層強化學習,是一種處理時間序列問題的高級方法。通過理解時間序列的一般表示,可以更有效地解決強化學習問題。從神經科學角度出發,時間序列表示可以分為五個層次:第一層關注時間信息;第二層對序列進行分塊處理;第三層抽取塊之間的順序信息;第四層識別序列中的模式或規律;第五層抽取生成語法的規則。那么,分層強化學習?一起來了解一下吧。
分層強化學習的初衷在于解決復雜問題的狀態與動作空間過大導致的學習效率低下問題。直觀地理解,復雜問題可類比于學習一道菜,通過分解為一系列簡單步驟(洗菜、切菜、炒菜等)來簡化學習過程。然而,實際應用中,分層強化學習的動機與這一直觀理解有所出入,其主要解決的是稀疏獎勵(sparse reward)問題,即在環境中難以獲得具有正獎勵的樣本時,智能體的學習面臨困難。分層策略通過將策略分為不同層級的子策略,每個子策略在學習過程中通過上一層級傳遞來的獎勵,以提高樣本的利用效率。
分層強化學習主要分為基于option與基于goal兩大類。基于option的分層強化學習中,上層控制器在較長的時間跨度上選擇下層策略的option,而下層控制器在較短的時間跨度上根據所選option選擇動作。基于goal的分層強化學習則在上層控制器選擇目標(goal)的基礎上,下層控制器根據目標及策略選擇動作。定義goal成為這類方法的關鍵問題之一。
基于option的分層強化學習典型代表包括Option-Critic、H-DQN等,這些算法通過上層控制器與下層控制器的協同工作,實現對復雜任務的分解與學習。基于goal的分層強化學習則通過定義不同層級的目標,引導智能體的學習過程,如UVFA、HER、HIRO等算法。
分層強化學習,是一種處理時間序列問題的高級方法。通過理解時間序列的一般表示,可以更有效地解決強化學習問題。從神經科學角度出發,時間序列表示可以分為五個層次:第一層關注時間信息;第二層對序列進行分塊處理;第三層抽取塊之間的順序信息;第四層識別序列中的模式或規律;第五層抽取生成語法的規則。這些層次的表示有助于構建對時間序列的深度理解。強化學習中,分層強化學習引入了結構化的語法表示,簡化了動作學習,提高了效率。類比人類學習,分層方法也適用于技術發展,通過強化學習可生成新技術。抽象表示的重要性在于降低維數災難,使學習過程簡化,且得到的策略具有魯棒性。
分層強化學習更新方法有高層策略更新、低層策略更新、傳遞信息、更新參數、重復以上步驟。
1、高層策略更新:在每個時間步驟,高層策略接收當前狀態作為輸入,并輸出一個抽象的、高級別的行動指導,如目標位置等。這個指導會被傳遞給低層策略執行。通常使用梯度下降等優化算法來最大化累積獎勵,并且將其更新的方向傳遞給低層策略。
2、低層策略更新:低層策略負責執行具體的、低級別的動作,并通過與環境的交互來更新自己的價值函數。通常使用類似于標準強化學習的方式來更新其價值函數,例如使用Q-learning或SARSA等算法。
3、傳遞信息:高層策略的指導會傳遞給低層策略執行,并且通過梯度下降更新方向傳遞給低層策略。
4、更新參數:在每個時間步驟,所有層次的策略都會根據當前的狀態和動作更新其內部參數。
5、重復以上步驟:以上幾個步驟在每個時間步驟重復進行,直到任務完成或者達到最大的時間步驟。
分層強化學習是一種有效應對稀疏獎勵和復雜問題的策略,它將復雜問題分解為多個子問題,通過目標導向(goal-reach)和多級控制(multi-level control)來解決。主要方法有Universal Value Function Approximators (UVFA)、Hierarchical Deep Q-Network (HDQN)、Functional Skills (FuNs)、Hindsight Experience Replay (HER)、Hierarchical Actor-Critic (HAC)、HIerarchical Reinforcement learning with Off-policy correction (HIRO)等。
UVFA通過引入目標作為輸入,學習狀態和目標的隱變量映射,解決目標選取難題,但目標選擇仍然是挑戰。HDQN針對特定環境Montezuma's Revenge,通過劃分meta controller和controller,分別負責目標設定和執行,目標選取是通過預定義的游戲對象圖像。
FuNs則通過嵌入、變換和循環神經網絡處理高維輸入,Manager設定目標,Worker執行,強化Manager的訓練目標,但目標定義依賴人工選擇。
分層強化學習中,HIRO: HIerarchical Reinforcement learning with Off-policy correction,為NIPS 2018年發表的先進方法。此方法采用兩層結構,上層策略提出目標,底層策略執行。目標提出與執行分層進行,頂層策略每隔一定時間步提出新目標,底層策略根據目標與當前狀態產生動作。
底層策略獲得與目標接近程度成正比的內部激勵,目標轉移函數在每個時間步獲取下一個目標,頂層策略每c個時間步更新一次。文章重點在于off-policy correction,解決HRL方法中樣本利用效率問題。
在off-policy中,底層策略不斷變化,導致早期采樣在后期對訓練無效。為解決此問題,HIRO將舊樣例目標替換,使用新的高層動作重新標記,使得底層策略執行舊策略動作,實現相同狀態轉移。通過極大似然估計,計算出最佳目標,隨機選擇候選目標中概率最大的目標進行重新標記。
HIRO在復雜環境中,如Ant-Gather和Ant-Maze等,相較于FeUdal Network、SNN4HRL和VIME等方法,表現更優。實驗驗證了off-policy correction在HRL中的關鍵作用。
以上就是分層強化學習的全部內容,總的來說,分層強化學習不僅是一場智能策略的探索,更是一種理解和利用時間序列數據的強大工具,它在簡化復雜問題的同時,展示了人工智能如何在模仿和學習中不斷進化。讓我們期待在未來的應用中,分層強化學習如何在眾多領域中大放異彩。內容來源于互聯網,信息真偽需自行辨別。如有侵權請聯系刪除。