MDP Model

Markov Decision Processes (MDPs) model sequential decision-making under uncertainty, aiming to find optimal policies maximizing cumulative rewards. Current research focuses on addressing challenges like model uncertainty (e.g., using multi-model MDPs and robust reinforcement learning), improving sample efficiency through abstract state representations and efficient algorithms, and handling complex real-world scenarios with heterogeneous environments and non-Markovian safety constraints. These advancements are crucial for improving the performance and reliability of reinforcement learning agents in various applications, from robotics and healthcare to online advertising and autonomous systems.

Papers

November 18, 2024

Robust Markov Decision Processes: A Place Where AI and Formal Methods Meet
Marnix Suilen, Thom Badings, Eline M. Bovy, David Parker, Nils Jansen
Reinforcement Learning Artificial Intelligence Markov Decision Process Policy Iteration Place Formal Method MDP Model Robust Markov Decision Process

July 8, 2024

Solving Multi-Model MDPs by Coordinate Ascent and Dynamic Programming
Xihong Su, Marek Petrik
Policy Gradient Dynamic Programming MDP Model

June 22, 2024

Learning Abstract World Model for Value-preserving Planning with Options
Rafael Rodriguez-Sanchez, George Konidaris
Task Planning Model Learning State Action Space Continuous Option Temporal Action MDP Model

February 5, 2024

Sample Complexity Characterization for Linear Contextual MDPs
Junze Deng, Yuan Cheng, Shaofeng Zou, Yingbin Liang
Sample Complexity Linear Ordered Data MDP Model Contextual Markov Decision Process Contextual MDPs Time Varying Environment

April 6, 2023

March 22, 2023

Reinforcement Learning with Exogenous States and Rewards
George Trimponias, Thomas G. Dietterich
Reinforcement Learning Markov Decision Process State Space Reward Report MDP Model Exogenous Global Markov Process

February 10, 2023

Towards Minimax Optimality of Model-based Robust Reinforcement Learning
Pierre Clavier, Erwan Le Pennec, Matthieu Geist
Markov Decision Process Sample Complexity Optimal Policy Robust Reinforcement Learning Minimax Optimality MDP Model

February 4, 2023

Federated Temporal Difference Learning with Linear Function Approximation under Environmental Heterogeneity
Han Wang, Aritra Mitra, Hamed Hassani, George J. Pappas, James Anderson
Markov Decision Process Linear Function Approximation Federated Reinforcement Learning Finite Time Markovian Sampling MDP Model Heterogeneity Environment

October 5, 2022

Reward-Mixing MDPs with a Few Latent Contexts are Learnable
Jeongyeol Kwon, Yonathan Efroni, Constantine Caramanis, Shie Mannor
Markov Decision Process Optimal Policy Near Optimal Policy Episodic Reinforcement Learning MDP Model

September 25, 2022

Gradient Optimization for Single-State RMDPs
Keith Badger
Autonomous Driving Data Driven Adversarial Learning Gradient Based Optimization Data Driven Model Data Driven Decision MDP Model

September 15, 2022

Continuous MDP Homomorphisms and Homomorphic Policy Gradient
Sahand Rezaei-Shoshtari, Rosie Zhao, Prakash Panangaden, David Meger, Doina Precup
Policy Gradient MDP Model MDP Homomorphism

September 14, 2022

Using Forwards-Backwards Models to Approximate MDP Homomorphisms
Augustine N. Mavor-Parker, Matthew J. Sargent, Christian Pehle, Andrea Banino, Lewis D. Griffin, Caswell Barry
Action Space State Action Space State Action Pair MDP Model MDP Homomorphism

August 3, 2022

Bayesian regularization of empirical MDPs
Samarth Gupta, Daniel N. Hill, Lexing Ying, Inderjit Dhillon
Markov Decision Process Optimal Policy Model Based Reinforcement Learning Robust Policy Entropy Regularization Bayesian Regularization MDP Model