MDP Homomorphism

Markov Decision Process (MDP) homomorphisms aim to simplify complex reinforcement learning problems by creating abstract representations of the original environment. Current research focuses on extending these techniques to continuous state and action spaces, developing algorithms that learn homomorphisms automatically (e.g., using forward-backward models or bisimulation metrics), and analyzing their impact on sample efficiency. This work is significant because it promises to improve the scalability and generalization capabilities of reinforcement learning, particularly in applications like scientific discovery and robotics where high-dimensional state spaces are common.

Papers

July 18, 2024

Geometric Active Exploration in Markov Decision Processes: the Benefit of Abstraction
Riccardo De Santi, Federico Arangath Joseph, Noah Liniger, Mirco Mutti, Andreas Krause
Reinforcement Learning Markov Decision Process Complementary Benefit Active Exploration Cognitive Abstraction MDP Homomorphism

September 15, 2022

Continuous MDP Homomorphisms and Homomorphic Policy Gradient
Sahand Rezaei-Shoshtari, Rosie Zhao, Prakash Panangaden, David Meger, Doina Precup
Policy Gradient MDP Model MDP Homomorphism

September 14, 2022

Using Forwards-Backwards Models to Approximate MDP Homomorphisms
Augustine N. Mavor-Parker, Matthew J. Sargent, Christian Pehle, Andrea Banino, Lewis D. Griffin, Caswell Barry
Action Space State Action Space State Action Pair MDP Model MDP Homomorphism

MDP Homomorphism

Papers

Geometric Active Exploration in Markov Decision Processes: the Benefit of Abstraction

Continuous MDP Homomorphisms and Homomorphic Policy Gradient

Using Forwards-Backwards Models to Approximate MDP Homomorphisms