Markov Decision Process

Markov Decision Processes (MDPs) are mathematical frameworks for modeling sequential decision-making problems under uncertainty, aiming to find optimal policies that maximize cumulative rewards. Current research emphasizes efficient algorithms for solving MDPs, particularly in complex settings like partially observable MDPs (POMDPs) and constrained MDPs (CMDPs), often employing techniques like policy gradient methods, Q-learning, and active inference. These advancements are crucial for improving the design and analysis of autonomous systems, robotics, and other applications requiring intelligent decision-making in dynamic environments, with a growing focus on addressing issues of safety, robustness, and sample efficiency.

Papers

October 16, 2024

October 15, 2024

October 14, 2024

Improved Regret Bound for Safe Reinforcement Learning via Tighter Cost Pessimism and Reward Optimism
Kihyun Yu, Duksang Lee, William Overman, Dabeen Lee
Markov Decision Process Safe Reinforcement Learning Regret Bound Value Function Stochastic Reward

October 10, 2024

October 9, 2024

Flipping-based Policy for Chance-Constrained Markov Decision Processes
Xun Shen, Shuo Jiang, Akifumi Wachi, Kaumune Hashimoto, Sebastien Gros
Markov Decision Process Safe Reinforcement Learning Safety Constraint Health Policy Recommendation Policy Switching

October 8, 2024

Effort Allocation for Deadline-Aware Task and Motion Planning: A Metareasoning Approach
Yoonchang Sung, Shahaf S. Shperberg, Qi Wang, Peter Stone
Reinforcement Learning Markov Decision Process Motion Planning Resource Allocation Robot Planning Meta Reasoning

October 7, 2024

Towards Measuring Goal-Directedness in AI Systems
Dylan Xu, Juan-Pablo Rivera
Reinforcement Learning Markov Decision Process AI System Goal Oriented Diverse Policy

October 3, 2024

Best-of-Both-Worlds Policy Optimization for CMDPs with Bandit Feedback
Francesco Emanuele Stradi, Anna Lunghi, Matteo Castiglioni, Alberto Marchesi, Nicola Gatti
Markov Decision Process Convex Optimization Optimal Regret Bandit Feedback Constrained Markov Decision Process Best of Both World Algorithm Adversarial Constraint

October 2, 2024

Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting
Alessio Russo, Alberto Maria Metelli, Marcello Restelli
Markov Decision Process Efficient Learning C POMDPs Stochastic Optimal Control POMDP Policy Average Reward Bayes Optimal Policy

September 27, 2024

Robust Proximity Operations using Probabilistic Markov Models
Deep Parikh, Ali Hasnain Khowaja, Manoranjan Majji
Autonomous Vehicle Markov Decision Process Extended Kalman Filter Proximity Operation Markov Model Guidance Law

September 26, 2024

FactorSim: Generative Simulation via Factorized Representation
Fan-Yun Sun, S. I. Harini, Angela Yi, Yihan Zhou, Alex Zook, Jonathan Tremblay, Logan Cross, Jiajun Wu, Nick Haber
Reinforcement Learning Markov Decision Process Simulation Study Structured Representation Stochastic Simulation Complex Generative Benchmarking Generative

September 25, 2024

September 23, 2024

The Number of Trials Matters in Infinite-Horizon General-Utility Markov Decision Processes
Pedro P. Santos, Alberto Sardinha, Francisco S. Melo
Markov Decision Process Policy Evaluation Numerical Data State Action Pair Infinite Horizon Generalizing Clinical Trial

September 22, 2024

Exploiting Exogenous Structure for Sample-Efficient Reinforcement Learning
Jia Wan, Sean R. Sinclair, Devavrat Shah, Martin J. Wainwright
Markov Decision Process State Space Sample Efficient Reinforcement Learning Exogenous Variable

September 21, 2024

R-AIF: Solving Sparse-Reward Robotic Tasks from Pixels with Active Inference and World Models
Viet Dung Nguyen, Zhizhuo Yang, Christopher L. Buckley, Alexander Ororbia
Markov Decision Process World Model Tetromino Pixel Active Inference Partially Observable Markov Decision Process Sparse Reward Environment

September 13, 2024

Predictive Control and Regret Analysis of Non-Stationary MDP with Look-ahead Information
Ziyi Zhang, Yorie Nakahira, Guannan Qu
Markov Decision Process Predictive Control Regret Analysis Optimal Action Non Stationary Environment Prediction Horizon

Markov Decision Process

Papers

Reclaiming the Source of Programmatic Policies: Programmatic versus Latent Spaces

Sample-Efficient Reinforcement Learning with Temporal Logic Objectives: Leveraging the Task Specification to Guide Exploration

Process Reward Model with Q-Value Rankings

Unveiling Options with Neural Decomposition

Improved Regret Bound for Safe Reinforcement Learning via Tighter Cost Pessimism and Reward Optimism

The Plug-in Approach for Average-Reward and Discounted MDPs: Optimal Sample Complexity Analysis

Offline Inverse Constrained Reinforcement Learning for Safe-Critical Decision Making in Healthcare

Flipping-based Policy for Chance-Constrained Markov Decision Processes

Effort Allocation for Deadline-Aware Task and Motion Planning: A Metareasoning Approach

Towards Measuring Goal-Directedness in AI Systems

Best-of-Both-Worlds Policy Optimization for CMDPs with Bandit Feedback

Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting

Robust Proximity Operations using Probabilistic Markov Models

FactorSim: Generative Simulation via Factorized Representation

Topological Foundations of Reinforcement Learning

Learning Utilities from Demonstrations in Markov Decision Processes

The Number of Trials Matters in Infinite-Horizon General-Utility Markov Decision Processes

Exploiting Exogenous Structure for Sample-Efficient Reinforcement Learning

R-AIF: Solving Sparse-Reward Robotic Tasks from Pixels with Active Inference and World Models

Predictive Control and Regret Analysis of Non-Stationary MDP with Look-ahead Information