Log Linear Policy

Log-linear policies, a class of parameterized policies used in reinforcement learning, are a focus of current research aiming to improve the efficiency and convergence properties of policy optimization algorithms. Studies are exploring the theoretical convergence rates of natural policy gradient methods and comparing them to alternative approaches like reward model learning, often within the context of Markov decision processes. This research is significant because it provides a deeper understanding of the theoretical underpinnings of these methods, leading to more efficient algorithms for solving complex decision-making problems in various applications. The focus on achieving linear convergence rates, particularly without relying on strong regularization techniques, highlights a key direction in improving the scalability and practical applicability of reinforcement learning.

Papers

November 18, 2024

Fast Convergence of Softmax Policy Mirror Ascent
Reza Asad, Reza Babanezhad, Issam Laradji, Nicolas Le Roux, Sharan Vaswani
Policy Gradient Policy Optimization Natural Policy Gradient Policy Mirror Descent Exponential Convergence Rate Softmax Policy Log Linear Policy

March 4, 2024

Reward Model Learning vs. Direct Policy Optimization: A Comparative Analysis of Learning from Human Preferences
Andi Nika, Debmalya Mandal, Parameswaran Kamalaruban, Georgios Tzannetos, Goran Radanović, Adish Singla
Reinforcement Learning LeArning Abstract Markov Decision Process Comparative Study Reward Function Reward Model Direct Preference Optimization Human Preference Direct Policy Log Linear Policy

October 4, 2023

A Fisher-Rao gradient flow for entropy-regularised Markov decision processes in Polish spaces
Bekzhan Kerimkulov, James-Michael Leahy, David Siska, Lukasz Szpruch, Yufei Zhang
Natural Policy Gradient Policy Mirror Descent Fisher Rao Gradient Flow Polish Space Entropy Regularized Markov Decision Process Log Linear Policy

October 4, 2022

Linear Convergence of Natural Policy Gradient Methods with Log-Linear Policies
Rui Yuan, Simon S. Du, Robert M. Gower, Alessandro Lazaric, Lin Xiao
Markov Decision Process Natural Policy Gradient Linear Convergence Policy Mirror Descent Log Linear Policy

September 30, 2022

Linear Convergence for Natural Policy Gradient with Log-linear Policy Parametrization
Carlo Alfano, Patrick Rebeschini
Markov Decision Process Natural Policy Gradient Linear Convergence Policy Mirror Descent Log Linear Policy

Log Linear Policy

Papers

Fast Convergence of Softmax Policy Mirror Ascent

Reward Model Learning vs. Direct Policy Optimization: A Comparative Analysis of Learning from Human Preferences

A Fisher-Rao gradient flow for entropy-regularised Markov decision processes in Polish spaces

Linear Convergence of Natural Policy Gradient Methods with Log-Linear Policies

Linear Convergence for Natural Policy Gradient with Log-linear Policy Parametrization