Episodic Markov Decision Process

Episodic Markov Decision Processes (EMDPs) model sequential decision-making problems where interactions conclude after a fixed number of steps, focusing on learning optimal policies to maximize cumulative rewards. Current research emphasizes developing provably efficient algorithms, particularly for model-free approaches and settings with function approximation, often employing techniques like upper confidence bounds, posterior sampling, and reference-advantage decomposition to handle stochasticity and improve sample efficiency. These advancements are significant for both theoretical understanding of reinforcement learning and practical applications, enabling faster and more robust learning in complex environments with limited data.

Papers

January 31, 2022

January 28, 2022

Provably Efficient Primal-Dual Reinforcement Learning for CMDPs with Non-stationary Objectives and Constraints
Yuhao Ding, Javad Lavaei
Reinforcement Learning Time Varying Participation Constraint Constrained Markov Decision Process Episodic Markov Decision Process Safe Reinforcement Learning Algorithm Time Varying Objective Primal Dual Reinforcement Learning

December 20, 2021

Differentially Private Regret Minimization in Episodic Markov Decision Processes
Sayak Ray Chowdhury, Xingyu Zhou
Markov Decision Process Regret Bound Regret Minimization Sublinear Regret Episodic Markov Decision Process Tabular Markov Decision Process

Episodic Markov Decision Process

Papers

Efficient Reinforcement Learning in Block MDPs: A Model-free Representation Learning Approach

Near-Optimal Regret for Adversarial MDP with Delayed Bandit Feedback

Provably Efficient Primal-Dual Reinforcement Learning for CMDPs with Non-stationary Objectives and Constraints

Differentially Private Regret Minimization in Episodic Markov Decision Processes