Policy Constraint

Policy constraint in reinforcement learning focuses on ensuring learned agent policies adhere to predefined safety or behavioral limitations, preventing undesirable actions while optimizing for a primary objective. Current research emphasizes developing dynamic and adaptive constraint methods, often integrated into offline reinforcement learning algorithms like TD3-BC and CQL, or employing novel architectures such as decision transformers and conditional sequence models (e.g., SaFormer). These advancements aim to address limitations of static constraints, improve sample efficiency, and enable robust policy learning from diverse or imperfect datasets, with applications ranging from robotics to autonomous systems.

Papers

June 28, 2022

Linear programming-based solution methods for constrained partially observable Markov decision processes
Robert K. Helmeczi, Can Kavaklioglu, Mucahit Cevik
Markov Decision Process Integer Programming Linear Ordered Data Policy Constraint Programming Solver Continuous POMDP

April 4, 2022

Policy Learning with Competing Agents
Roshni Sahoo, Stefan Wager
Agent Smith Optimal Policy Strategic Behavior Treatment Assignment Policy Constraint

December 30, 2021

Constraint Sampling Reinforcement Learning: Incorporating Expertise For Faster Learning
Tong Mu, Georgios Theocharous, David Arbour, Emma Brunskill
Online Reinforcement Learning DQN Agent Fast Learning Domain Expertise Policy Constraint

November 14, 2021

Explicit Explore, Exploit, or Escape ($E^4$): near-optimal safety-constrained reinforcement learning in polynomial time
David M. Bossens, Nicholas Bishop
Reinforcement Learning Polynomial Time Constrained Markov Decision Process Policy Constraint Explicit Communication Offline Optimization Intelligent Escape

Policy Constraint

Papers

Linear programming-based solution methods for constrained partially observable Markov decision processes

Policy Learning with Competing Agents

Constraint Sampling Reinforcement Learning: Incorporating Expertise For Faster Learning

Explicit Explore, Exploit, or Escape ($E^4$): near-optimal safety-constrained reinforcement learning in polynomial time