Policy Mirror

Policy mirror descent is a family of reinforcement learning algorithms that efficiently updates policies by leveraging mirror descent optimization techniques, aiming to find optimal strategies in various settings, including single-agent and multi-agent scenarios, and continuous or discrete action spaces. Current research focuses on improving convergence rates through techniques like entropy annealing and addressing challenges posed by heterogeneous agents and continuous action spaces, often employing algorithms like HAMDPO and variations of mirror ascent. These advancements offer improved sample complexity and computational efficiency, impacting both theoretical understanding of reinforcement learning and the practical application of these methods to complex problems in robotics, game playing, and other domains.

Papers

May 30, 2024

Entropy annealing for policy mirror descent in continuous time and space
Deven Sethi, David Šiška, Yufei Zhang
Policy Gradient Policy OpTimization Deep Space Continuous Time Stable Entropy Entropy Regularization Policy Mirror Descent Policy Mirror

August 13, 2023

Heterogeneous Multi-Agent Reinforcement Learning via Mirror Descent Policy Optimization
Mohammad Mehdi Nasiri, Mansoor Rezghi
Cooperative Multi Agent Reinforcement Learning Heterogeneous Agent Multi Agent MuJoCo Heterogeneous Multi Agent Reinforcement Learning Policy Mirror

December 29, 2022

Policy Mirror Ascent for Efficient and Independent Learning in Mean Field Games
Batuhan Yardim, Semih Cayci, Matthieu Geist, Niao He
High Efficiency Multi Agent Mean Field Game Approximate Nash Equilibrium Independent Learning Player Game Policy Mirror

January 28, 2022

On the Hidden Biases of Policy Mirror Ascent in Continuous Action Spaces
Amrit Singh Bedi, Souradip Chakraborty, Anjaly Parayil, Brian Sadler, Pratap Tokekar, Alec Koppel
Policy Gradient Action Space Heavy Tailed Subtle Bias Policy Mirror Heavy Tailed Policy

January 24, 2022

Homotopic Policy Mirror Descent: Policy Convergence, Implicit Regularization, and Improved Sample Complexity
Yan Li, Guanghui Lan, Tuo Zhao
Policy Gradient Sample Complexity Implicit Regularization Infinite Horizon Policy Mirror Descent Policy Alignment Policy Mirror

January 15, 2022

Block Policy Mirror Descent
Guanghui Lan, Yan Li, Tuo Zhao
Reinforcement Learning Policy Gradient Policy OpTimization Policy Sampling Policy Mirror