元強化學習，meta-RL-RL2算法

化學
2025-05-15

元強化學習？元強化學習（meta-RL）旨在學習高效適應新任務的策略，本文總結了幾種經典meta-RL算法，包括RL^2、MAML、MAESN、PEARL和Meta-Q-Learning。普通深度強化學習（DRL）專注于解決特定任務下的最優策略問題，而meta-RL的目標是學習一種能夠快速適應不同新任務的算法，即"學習如何學習"。那么，元強化學習？一起來了解一下吧。

關于元強化學習（meta-RL）的總結與思考

元強化學習（meta-RL）旨在學習高效適應新任務的策略，本文總結了幾種經典meta-RL算法，包括RL^2、MAML、MAESN、PEARL和Meta-Q-Learning。普通深度強化學習（DRL）專注于解決特定任務下的最優策略問題，而meta-RL的目標是學習一種能夠快速適應不同新任務的算法，即"學習如何學習"。

meta-RL的基本假設是老任務與新任務之間存在相似性，這使得學習過程能夠從過去的經驗中受益。在DRL背景下，meta-RL的目標是優化學習算法的參數，使得在新任務上表現更優。

meta-RL算法分為基于梯度和基于上下文兩大類。基于梯度的算法，如MAML，通過梯度上升學習適應新任務的算法。而基于上下文的算法，如MAESN和PEARL，通過構建任務表示和利用歷史經驗進行策略優化。

本文詳細介紹了MAML、MAESN和PEARL，以及它們在元學習領域的貢獻。MAML通過梯度更新學習算法，MAESN引入隱層特征促進時間連續的隨機探索，PEARL則通過隱層變量表示任務上下文，實現快速策略適應。

元-QL（MQL）采用離線策略評估方法，盡管其與meta-RL的基本理念有所沖突，但展示了off-policy訓練在meta-RL中的應用。

切換JAX，強化學習速度提升4000倍！牛津大學開源框架PureJaxRL，訓練只需GPU

元強化學習（Meta-RL）通過構建快速學習（內環）與元學習（外環）兩個階段來優化強化學習策略。RL2算法正是這一框架的實例，其核心理念在于利用快速學習過程與元學習過程協同作用，以實現高效的學習與適應。

內環學習（快速學習）階段，RL2采用循環神經網絡（RNN）的隱藏狀態作為記憶載體，這一狀態在每個episode中傳遞，利用已有的經驗進行快速學習。作者認為，基于記憶的學習是快速學習的關鍵，因為這允許算法在先驗知識的基礎上快速適應新的環境或任務。

外環學習（元學習）階段，RL2將每個任務（或馬爾可夫決策過程MDP）上的快速學習過程視為一次試驗，通過多個試驗形成一個批次，利用強化學習算法訓練RNN的權重。這一階段的目標是在多個任務上優化學習過程，以最大化每個試驗（即元學習樣本）的累計獎勵，從而實現對新任務的高效適應。

直觀上，RL2算法旨在通過快速學習過程積累經驗與知識，然后利用這些經驗在新任務上實現快速適應。第一階段的快速學習關注于探索，通過收集初始信息（先驗知識）；第二階段利用這些信息在新任務上執行最優動作，以最大化累積獎勵。這種設計旨在實現探索與利用之間的平衡，以實現快速的學習過程。

實驗部分驗證了RL2算法的有效性。

什么是強化學習

編輯：LRS

【新智元導讀】加入光榮的JAX-強化學習進化！

還在為強化學習運行效率發愁？無法解釋強化學習智能體的行為？

牛津大學研究人員分享了如何僅利用GPU高效運行強化學習算法，實現超過4000倍的加速，并利用高性能運行元進化發現算法，深入理解強化學習。該框架PureJaxRL大幅降低了學術研究的算力需求，使研究者能夠在單GPU上進行數萬億幀的實驗，縮小了與工業研究的差距。作者團隊通過JAX框架的特性，如向量化、vmap函數，以及利用已有環境庫，實現了算法加速和并行訓練。通過在多個強化學習環境上的實驗，證明了PureJaxRL在Cartpole-v1和MinAtar-Breakout等任務上與經典實現相比，實現了超過10倍的速度提升。此外，通過并行訓練多個智能體，實現加速效果更顯著。PureJaxRL框架在元學習領域也展示了其潛力，通過進化策略等方法，實現快速的超參數搜索和強化學習算法的發現。實驗結果表明，使用PureJaxRL，可以在單個GPU上訓練數萬智能體，并在多個強化學習任務中實現高效的元學習和策略優化，為強化學習領域帶來了革命性的提升。這些成果不僅推動了學術研究，也為工業應用提供了強大的工具。

meta-RL-RL2算法

強化學習是人工智能中策略學習的一種，是一種重要的機器學習方法，又稱再勵學習、評價學習，是從動物學習、參數擾動自適應控制等理論發展而來.所謂強化學習是指從環境狀態到動作映射的學習，以使動作從環境中獲得的累積獎賞值最大。該方法不同于監督學習技術那樣通過正例、反例來告知采取何種行為，而是通過試錯(trial and error)來發現最優行為策略。常用的強化學習算法包括TD(Temporal Difference)算法、Q學習算法、Sarsa算法等。

強化學習的基本原理

強化學習是從動物學習、參數擾動自適應控制等理論發展而來，其基本原理是：

如果Agent的某個行為策略導致環境正的獎賞(強化信號)，那么Agent以后產生這個行為策略的趨勢便會加強。Agent的目標是在每個離散狀態發現最優策略以使期望的折扣獎賞和最大。

強化學習把學習看作試探評價過程，Agent選擇一個動作用于環境，環境接受該動作后狀態發生變化，同時產生一個強化信號(獎或懲)反饋給Agent，Agent根據強化信號和環境當前狀態再選擇下一個動作，選擇的原則是使受到正強化(獎)的概率增大。選擇的動作不僅影響立即強化值，而且影響環境下一時刻的狀態及最終的強化值。