Policy Parameterization

Policy parameterization in reinforcement learning focuses on efficiently representing and learning the mapping from states to actions within a policy. Current research emphasizes improving sample efficiency and convergence rates through novel architectures like low-rank matrix models and specialized neural networks (e.g., those incorporating Lipschitz constraints or graph neural networks), as well as advanced algorithms such as mirror descent and primal-dual methods. These advancements aim to address challenges like the curse of dimensionality and instability in policy optimization, ultimately leading to more robust and efficient reinforcement learning agents for various applications, including robotics and resource management.

Papers

February 3, 2023

Stochastic Policy Gradient Methods: Improved Sample Complexity for Fisher-non-degenerate Policies
Ilyas Fatkhullin, Anas Barakat, Anastasia Kireeva, Niao He
Policy Gradient Sample Complexity Optimal Policy Policy Parameterization Stochastic Policy Gradient

January 30, 2023

A Novel Framework for Policy Mirror Descent with General Parameterization and Linear Convergence
Carlo Alfano, Rui Yuan, Patrick Rebeschini
Reinforcement Learning Policy Gradient Policy OpTimization Novel Framework Policy Optimization Policy Parameterization Linear Convergence Policy Mirror Descent

January 26, 2023

FedHQL: Federated Heterogeneous Q-Learning
Flint Xiaofeng Fan, Yining Ma, Zhongxiang Dai, Cheston Tan, Bryan Kian Hsiang Low, Roger Wattenhofer
Federated Reinforcement Learning Heterogeneous Agent Policy Parameterization FedML Parrot

December 28, 2022

On Pathologies in KL-Regularized Reinforcement Learning from Expert Demonstrations
Tim G. J. Rudner, Cong Lu, Michael A. Osborne, Yarin Gal, Yee Whye Teh
Expert Demonstration Policy Parameterization Regularized Reinforcement Learning Pathological Feature Behavior Policy

October 18, 2022

Proximal Learning With Opponent-Learning Awareness
Stephen Zhao, Chris Lu, Roger Baker Grosse, Jakob Nicolaus Foerster
Multi Agent Reinforcement Learning Social Awareness Policy Parameterization Proximal Neural Network

September 29, 2022

Offline Reinforcement Learning via High-Fidelity Generative Behavior Modeling
Huayu Chen, Cheng Lu, Chengyang Ying, Hang Su, Jun Zhu
Offline Reinforcement Learning Generative Modeling Policy Parameterization Unseen Action

June 21, 2022

Learning Neuro-Symbolic Skills for Bilevel Planning
Tom Silver, Ashay Athalye, Joshua B. Tenenbaum, Tomas Lozano-Perez, Leslie Pack Kaelbling
LeArning Abstract Motion Planning Neuro Symbolic Bilevel Optimization Policy Parameterization State Object Composition

June 2, 2022

Policy Gradient Algorithms with Monte-Carlo Tree Search for Non-Markov Decision Processes
Tetsuro Morimura, Kazuhiro Ota, Kenshi Abe, Peinan Zhang
Reinforcement Learning Markov Decision Process Policy Gradient Monte Carlo Tree Search Policy Parameterization

February 22, 2022

Reward-Free Policy Space Compression for Reinforcement Learning
Mirco Mutti, Stefano Del Col, Marcello Restelli
Reinforcement Learning Policy Parameterization Policy Space State Action Distribution

February 17, 2022

Retrieval-Augmented Reinforcement Learning
Anirudh Goyal, Abram L. Friesen, Andrea Banino, Theophane Weber, Nan Rosemary Ke, Adria Puigdomenech Badia, Arthur Guez, Mehdi Mirza, Peter C. Humphreys, Ksenia Konyushkova, Laurent Sifre, Michal Valko, Simon Osindero, Timothy Lillicrap, Nicolas Heess, Charles Blundell
Deep Reinforcement Learning Offline Reinforcement Learning DQN Agent Policy Parameterization

February 8, 2022

Bingham Policy Parameterization for 3D Rotations in Reinforcement Learning
Stephen James, Pieter Abbeel
Reinforcement Learning Policy Parameterization 3D Rotation Policy Parametrization

November 22, 2021

Policy Gradient and Actor-Critic Learning in Continuous Time and Space: Theory and Algorithms
Yanwei Jia, Xun Yu Zhou
Reinforcement Learning Practical Algorithm Policy Gradient Theoretical Understanding Stochastic Approximation Actor Critic Algorithm Continuous Time Policy Parameterization