Policy Policy Gradient

Policy gradient methods in reinforcement learning aim to optimize an agent's policy by iteratively adjusting its parameters based on the gradient of a performance objective. Current research heavily focuses on improving off-policy policy gradient algorithms, which learn from data collected under a different policy than the one being optimized, addressing challenges like high variance and bias through techniques such as optimal baselines, importance sampling corrections, and novel actor-critic architectures. These advancements enhance sample efficiency and robustness, leading to improved performance in various applications, including robotics and large language model fine-tuning. The development of theoretically sound and practically efficient off-policy methods is a significant area of ongoing investigation.

Papers

June 27, 2024

Contrastive Policy Gradient: Aligning LLMs on sequence-level scores in a supervised-friendly fashion
Yannis Flet-Berliac, Nathan Grinsztajn, Florian Strub, Eugene Choi, Chris Cremer, Arash Ahmadian, Yash Chandak, Mohammad Gheshlaghi Azar, Olivier Pietquin, Matthieu Geist
Large Language Model Reinforcement Learning Policy Gradient Contrastive Reinforcement Learning Policy Policy Gradient

May 4, 2024

Off-OAB: Off-Policy Policy Gradient Method with Optimal Action-Dependent Baseline
Wenjia Meng, Qian Zheng, Long Yang, Yilong Yin, Gang Pan
Policy OpTimization Policy Policy Gradient Optimal Baseline

May 20, 2023

Off-Policy Average Reward Actor-Critic with Deterministic Policy Search
Naman Saxena, Subhojyoti Khastigir, Shishir Kolathaya, Shalabh Bhatnagar
Policy Gradient Low Rank Actor Critic Algorithm Average Reward Policy Policy Gradient

December 10, 2022

Coordinate Ascent for Off-Policy RL with Global Convergence Guarantees
Hsin-En Su, Yen-Ju Chen, Ping-Chun Hsieh, Xi Liu
Policy Reinforcement Learning Policy Optimization Global Convergence Guarantee Greedy Coordinate Policy Policy Gradient

August 1, 2022

Mitigating Off-Policy Bias in Actor-Critic Methods with One-Step Q-learning: A Novel Correction Approach
Baturay Saglam, Dogan C. Cicek, Furkan B. Mutlu, Suleyman S. Kozat
Q Learning Policy OpTimization Actor Critic Model Free Deep Reinforcement Learning Policy Policy Gradient

January 31, 2022

Optimal Estimation of Off-Policy Policy Gradient via Double Fitted Iteration
Chengzhuo Ni, Ruiqi Zhang, Xiang Ji, Xuezhou Zhang, Mengdi Wang
Policy Gradient Optimal Estimation Fitted Q Iteration Policy Policy Gradient

November 16, 2021

Off-Policy Actor-Critic with Emphatic Weightings
Eric Graves, Ehsan Imani, Raksha Kumaraswamy, Martha White
Policy Gradient Policy Actor Critic Linear Weighting Policy Policy Gradient

November 12, 2021

AWD3: Dynamic Reduction of the Estimation Bias
Dogan C. Cicek, Enes Duran, Baturay Saglam, Kagan Kaya, Furkan B. Mutlu, Suleyman S. Kozat
Constructive Reduction Estimation Bias Policy Algorithm Value Based Deep Reinforcement Learning Delayed Deep Deterministic Policy Gradient State Action Value Policy Policy Gradient