Policy Algorithm

Policy algorithms in reinforcement learning aim to learn optimal decision-making strategies from data, often focusing on off-policy methods that leverage past experiences collected under different policies. Current research emphasizes improving the robustness and efficiency of these algorithms, addressing issues like overestimation bias, variance reduction in importance sampling, and handling model misspecification through techniques such as conservative updates, bootstrapping, and weighted replay buffers. This work has significant implications for various applications, including biological sequence design, language model alignment, and robotics, by enabling more sample-efficient and reliable learning from offline datasets.

Papers

February 22, 2022

Continual Auxiliary Task Learning
Matthew McLeod, Chunlok Lo, Matthew Schlegel, Andrew Jacobsen, Raksha Kumaraswamy, Martha White, Adam White
Policy Learning Auxiliary Task Policy Algorithm Reinforcement Learning System Continual Task

January 18, 2022

Conservative Distributional Reinforcement Learning with Safety Constraints
Hengrui Zhang, Youfang Lin, Sheng Han, Shuo Wang, Kai Lv
Policy Reinforcement Learning Safety Constraint Policy Optimization Distributional Reinforcement Learning Constrained Markov Decision Process Policy Algorithm

January 11, 2022

STIR$^2$: Reward Relabelling for combined Reinforcement and Imitation Learning on sparse-reward tasks
Jesus Bujalance Martin, Fabien Moutarde
Imitation Learning Feature Imitation Reward Report Sparse Reward Environment Policy Algorithm

December 23, 2021

Improving the Efficiency of Off-Policy Reinforcement Learning by Accounting for Past Decisions
Brett Daley, Christopher Amato
High Efficiency Policy Reinforcement Learning Sample Efficient Reinforcement Learning Policy Algorithm Policy Estimation Decision Policy

November 12, 2021

AWD3: Dynamic Reduction of the Estimation Bias
Dogan C. Cicek, Enes Duran, Baturay Saglam, Kagan Kaya, Furkan B. Mutlu, Suleyman S. Kozat
Constructive Reduction Estimation Bias Policy Algorithm Value Based Deep Reinforcement Learning Delayed Deep Deterministic Policy Gradient State Action Value Policy Policy Gradient

November 6, 2021

d3rlpy: An Offline Deep Reinforcement Learning Library
Takuma Seno, Michita Imai
Offline Reinforcement Learning Algorithm Policy Algorithm Offline Deep Reinforcement Learning