Policy Optimization

Policy optimization is a core area of reinforcement learning focused on efficiently finding optimal policies, or strategies, for agents interacting with an environment to maximize rewards. Current research emphasizes improving sample efficiency and robustness, particularly through algorithms like Proximal Policy Optimization (PPO) and its variants, as well as exploring new approaches such as Direct Preference Optimization (DPO) and incorporating techniques like diffusion models and dual regularization. These advancements are significant for both theoretical understanding of reinforcement learning and practical applications across diverse fields, including robotics, natural language processing, and resource management.

Papers

August 3, 2023

Fast Slate Policy Optimization: Going Beyond Plackett-Luce
Otmane Sakhi, David Rohde, Nicolas Chopin
Action Space Policy Optimization LLM Model Large Scale Machine Learning Large Scale Decision

July 11, 2023

Secrets of RLHF in Large Language Models Part I: PPO
Rui Zheng, Shihan Dou, Songyang Gao, Yuan Hua, Wei Shen, Binghai Wang, Yan Liu, Senjie Jin, Qin Liu, Yuhao Zhou, Limao Xiong, Lu Chen, Zhiheng Xi, Nuo Xu, Wenbin Lai, Minghao Zhu, Cheng Chang, Zhangyue Yin, Rongxiang Weng, Wensen Cheng, Haoran Huang, Tianxiang Sun, Hang Yan, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang
Reinforcement Learning Proximal Policy Optimization Reward Model Policy Optimization Reinforcement Learning From Human Feedback Dark Secret

June 24, 2023

Towards Optimal Pricing of Demand Response -- A Nonparametric Constrained Policy Optimization Approach
Jun Song, Chaoyue Zhao
Reinforcement Learning Policy OpTimization Policy Optimization Actor Critic Algorithm Demand Response Constrained Policy Optimization Optimal Pricing

June 20, 2023

Neural Inventory Control in Networks via Hindsight Differentiable Policy Optimization
Matias Alvo, Daniel Russo, Yash Kanoria
Deep Reinforcement Learning Network Programming Policy Gradient Policy Optimization Inventory Control

June 18, 2023

Acceleration in Policy Optimization
Veronica Chelu, Tom Zahavy, Arthur Guez, Doina Precup, Sebastian Flennerhag
Policy Gradient Policy OpTimization Policy Optimization Low Rate ACCELERATION Policy Iteration Optimistic Policy Gradient

June 15, 2023

Low-Switching Policy Gradient with Exploration via Online Sensitivity Sampling
Yunfan Li, Yiran Wang, Yu Cheng, Lin Yang
Policy Gradient Environment Exploration Policy OpTimization Policy Optimization Policy Parameterization Sample Efficient Policy Sensitivity Sampling

May 18, 2023

Optimistic Natural Policy Gradient: a Simple Efficient Policy Optimization Framework for Online RL
Qinghua Liu, Gellért Weisz, András György, Chi Jin, Csaba Szepesvári
Policy OpTimization Policy Optimization Near Optimal Policy Optimistic Policy Gradient

May 17, 2023

Wasserstein Gradient Flows for Optimizing Gaussian Mixture Policies
Hanna Ziesche, Leonel Rozo
Policy OpTimization Policy Optimization Robot Policy Based Policy Wasserstein Gradient Mixture Policy

May 16, 2023

Double Pessimism is Provably Efficient for Distributionally Robust Offline Reinforcement Learning: Generic Algorithm and Robust Partial Coverage
Jose Blanchet, Miao Lu, Tong Zhang, Han Zhong
Policy Optimization Robust Offline Reinforcement Learning Optimal Robust Policy Stein Coverage

April 10, 2023

Epidemic Control on a Large-Scale-Agent-Based Epidemiology Model using Deep Deterministic Policy Gradient
Gaurav Deshkar, Jayanta Kshirsagar, Harshal Hayatnagarkar, Janani Venugopalan
Optimal Policy Policy Optimization Deep Deterministic Policy Gradient Pandemic Control Optimal Intervention

March 23, 2023

Connected Superlevel Set in (Deep) Reinforcement Learning and its Application to Minimax Theorems
Sihan Zeng, Thinh T. Doan, Justin Romberg
Reinforcement Learning Application Proficiency Policy Optimization Robust Reinforcement Learning Level Set Minimax Theorem

March 7, 2023

On the Sample Complexity of Vanilla Model-Based Offline Reinforcement Learning with Dependent Samples
Mustafa O. Karabag, Ufuk Topcu
Reinforcement Learning Offline Reinforcement Learning Sample Complexity Policy Evaluation Policy Optimization Model Based Offline Reinforcement Learning Based Offline RL

March 3, 2023

Can We Find Nash Equilibria at a Linear Rate in Markov Games?
Zhuoqing Song, Jason D. Lee, Zhuoran Yang
Nash Equilibrium Policy Optimization Markov Game Two Player Zero Sum Local Convergence

February 5, 2023

Sample Dropout: A Simple yet Effective Variance Reduction Technique in Deep Policy Optimization
Zichuan Lin, Xiapeng Wu, Mingfei Sun, Deheng Ye, Qiang Fu, Wei Yang, Wei Liu
Deep Reinforcement Learning Policy OpTimization Importance Sampling Policy Optimization Variance Reduction Technique

February 2, 2023

ACPO: A Policy Optimization Algorithm for Average MDPs with Constraints
Akhil Agnihotri, Rahul Jain, Haipeng Luo
Reinforcement Learning Policy OpTimization Participation Constraint Policy Optimization Constrained Policy Optimization Trust Region Policy Optimization

January 30, 2023

January 3, 2023

Safe Reinforcement Learning for an Energy-Efficient Driver Assistance System
Habtamu Hailemichael, Beshah Ayalew, Lindsey Kerbel, Andrej Ivanco, Keith Loiselle
Reinforcement Learning Control Barrier Function Safe Reinforcement Learning Policy Optimization Driver Assistance System Torque Control

January 2, 2023

A Policy Optimization Method Towards Optimal-time Stability
Shengjie Wang, Fengbo Lan, Xiang Zheng, Yuxue Cao, Oluwatosin Oseni, Haotian Xu, Tao Zhang, Yang Gao
Policy OpTimization Policy Optimization Prescribed Time

December 15, 2022

Driver Assistance Eco-driving and Transmission Control with Deep Reinforcement Learning
Lindsey Kerbel, Beshah Ayalew, Andrej Ivanco, Keith Loiselle
Deep Reinforcement Learning Policy Optimization Model Free Deep Reinforcement Learning Policy Actor Critic Eco Driving

Policy Optimization

Papers

Fast Slate Policy Optimization: Going Beyond Plackett-Luce

Secrets of RLHF in Large Language Models Part I: PPO

Towards Optimal Pricing of Demand Response -- A Nonparametric Constrained Policy Optimization Approach

Neural Inventory Control in Networks via Hindsight Differentiable Policy Optimization

Acceleration in Policy Optimization

Low-Switching Policy Gradient with Exploration via Online Sensitivity Sampling

Optimistic Natural Policy Gradient: a Simple Efficient Policy Optimization Framework for Online RL

Wasserstein Gradient Flows for Optimizing Gaussian Mixture Policies

Double Pessimism is Provably Efficient for Distributionally Robust Offline Reinforcement Learning: Generic Algorithm and Robust Partial Coverage

Epidemic Control on a Large-Scale-Agent-Based Epidemiology Model using Deep Deterministic Policy Gradient

Connected Superlevel Set in (Deep) Reinforcement Learning and its Application to Minimax Theorems

On the Sample Complexity of Vanilla Model-Based Offline Reinforcement Learning with Dependent Samples

Can We Find Nash Equilibria at a Linear Rate in Markov Games?

Sample Dropout: A Simple yet Effective Variance Reduction Technique in Deep Policy Optimization

ACPO: A Policy Optimization Algorithm for Average MDPs with Constraints

A Novel Framework for Policy Mirror Descent with General Parameterization and Linear Convergence

Improved Regret for Efficient Online Reinforcement Learning with Linear Function Approximation

Safe Reinforcement Learning for an Energy-Efficient Driver Assistance System

A Policy Optimization Method Towards Optimal-time Stability

Driver Assistance Eco-driving and Transmission Control with Deep Reinforcement Learning