Policy Optimization

Policy optimization is a core area of reinforcement learning focused on efficiently finding optimal policies, or strategies, for agents interacting with an environment to maximize rewards. Current research emphasizes improving sample efficiency and robustness, particularly through algorithms like Proximal Policy Optimization (PPO) and its variants, as well as exploring new approaches such as Direct Preference Optimization (DPO) and incorporating techniques like diffusion models and dual regularization. These advancements are significant for both theoretical understanding of reinforcement learning and practical applications across diverse fields, including robotics, natural language processing, and resource management.

Papers

May 1, 2024

No Representation, No Trust: Connecting Representation, Collapse, and Trust Issues in PPO
Skander Moalla, Andrea Miele, Daniil Pyatko, Razvan Pascanu, Caglar Gulcehre
Reinforcement Learning Proximal Policy Optimization Individual Representation Appropriate Trust Policy Optimization Event Collapse Dynamic Representation Policy Deep Reinforcement Learning Representation Collapse

April 29, 2024

DPO Meets PPO: Reinforced Token Optimization for RLHF
Han Zhong, Guhao Feng, Wei Xiong, Xinle Cheng, Li Zhao, Di He, Jiang Bian, Liwei Wang
Proximal Policy Optimization Direct Preference Optimization Policy Optimization Reinforcement Learning From Human Feedback Bandit Model Token Optimization

April 24, 2024

DPO: Differential reinforcement learning with application to optimal configuration search
Chandrajit Bajaj, Minh Nguyen
Reinforcement Learning Application Proficiency Action Space Policy Optimization Learning Agent

April 18, 2024

JointPPO: Diving Deeper into the Effectiveness of PPO in Multi-Agent Reinforcement Learning
Chenxing Liu, Guizhong Liu
Multi Agent Reinforcement Learning Proximal Policy Optimization Policy Optimization Multi Agent Challenge Diving Deep Transformer Based Policy

April 16, 2024

Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study
Shusheng Xu, Wei Fu, Jiaxuan Gao, Wenjie Ye, Weilin Liu, Zhiyu Mei, Guangju Wang, Chao Yu, Yi Wu
Reinforcement Learning Proximal Policy Optimization Direct Preference Optimization Comprehensive Study Policy Optimization Actor Critic Algorithm LLM Alignment Reward Free

March 25, 2024

Policy Optimization finds Nash Equilibrium in Regularized General-Sum LQ Games
Muhammad Aneeq uz Zaman, Shubham Aggarwal, Melih Bastopcu, Tamer Başar
Multi Agent Nash Equilibrium Policy OpTimization Policy Optimization Gaussian Policy Linear Quadratic

March 11, 2024

Scalable Online Exploration via Coverability
Philip Amortila, Dylan J. Foster, Akshay Krishnamurthy
Reinforcement Learning Policy Gradient Efficient Exploration Policy Optimization

January 26, 2024

Near-Optimal Policy Optimization for Correlated Equilibrium in General-Sum Markov Games
Yang Cai, Haipeng Luo, Chen-Yu Wei, Weiqiang Zheng
Policy OpTimization Policy Optimization Follow the Regularized Leader Efficient Equilibrium Correlated Equilibrium General Sum Markov Game

January 11, 2024

Optimistic Model Rollouts for Pessimistic Offline Policy Optimization
Yuanzhao Zhai, Yiying Li, Zijian Gao, Xudong Gong, Kele Xu, Dawei Feng, Ding Bo, Huaimin Wang
Offline Reinforcement Learning Policy Optimization Model Based Offline Reinforcement Learning Offline Policy Model Rollouts

December 28, 2023

Beyond PID Controllers: PPO with Neuralized PID Policy for Proton Beam Intensity Control in Mu2e
Chenwei Xu, Jerry Yao-Chieh Hu, Aakaash Narayanan, Mattson Thieme, Vladimir Nagaslaev, Mark Austin, Jeremy Arnold, Jose Berlioz, Pierrick Hanlet, Aisha Ibrahim, Dennis Nicklaus, Jovan Mitrevski, Jason Michael St. John, Gauri Pradhan, Andrea Saewert, Kiyomi Seiya, Brian Schupbach, Randy Thurman-Keup, Nhan Tran, Rui Shi, Seda Ogrenci, Alexis Maya-Isabelle Shuping, Kyle Hazelwood, Han Liu
Proximal Policy Optimization Policy Optimization Phantom 2D Accelerator Proton Beam Proportional Integral Derivative

December 18, 2023

Colored Noise in PPO: Improved Exploration and Performance through Correlated Action Sampling
Jakob Hollenstein, Georg Martius, Justus Piater
System Performance Proximal Policy Optimization Policy Reinforcement Learning Policy Optimization Exploration Performance Background Noise Action Sampling

November 14, 2023

Offline Data Enhanced On-Policy Policy Gradient with Provable Guarantees
Yifei Zhou, Ayush Sekhari, Yuda Song, Wen Sun
Policy Gradient Policy Optimization Offline Data Provable Guarantee Actor Critic Reinforcement Learning Hybrid Reinforcement Learning

November 10, 2023

Clipped-Objective Policy Gradients for Pessimistic Policy Optimization
Jared Markowitz, Edward W. Staley
Policy Gradient Proximal Policy Optimization Policy Optimization Natural Policy Gradient Trust Region Policy Optimization Multi Objective Policy

October 31, 2023

Dropout Strategy in Reinforcement Learning: Limiting the Surrogate Objective Variance in Policy Optimization Methods
Zhengpeng Xie, Changdong Yu, Weizheng Qiao
Reinforcement Learning Structured Dropout Policy Optimization Policy Iteration Surrogate Objective

October 13, 2023

Offline Reinforcement Learning for Optimizing Production Bidding Policies
Dmytro Korenkevych, Frank Cheng, Artsiom Balakir, Alex Nikulkov, Lingnan Gao, Zhihao Cen, Zuobing Xu, Zheqing Zhu
Offline Reinforcement Learning Policy Optimization Bidding Strategy Heuristic Policy

October 10, 2023

Bi-Level Offline Policy Optimization with Limited Exploration
Wenzhuo Zhou
Offline Reinforcement Learning Policy Optimization Regret Guarantee Offline Policy Pure Exploration Bellman Error Adversarial Estimator

October 8, 2023

DialCoT Meets PPO: Decomposing and Exploring Reasoning Paths in Smaller Language Models
Chengcheng Han, Xiaowei Du, Che Zhang, Yixin Lian, Xiang Li, Ming Gao, Baoyuan Wang
Reasoning Task Reasoning Capability Policy Optimization Reasoning Path Reasoning ChAin Smaller Language Model Path Reasoning

September 1, 2023

Efficient RLHF: Reducing the Memory Usage of PPO
Michael Santacroce, Yadong Lu, Han Yu, Yuanzhi Li, Yelong Shen
Reinforcement Learning Proximal Policy Optimization Reward Model Supervised Fine Tuning Policy Optimization Reinforcement Learning From Human Feedback Memory Management

August 29, 2023

Policy composition in reinforcement learning via multi-objective policy optimization
Shruti Mishra, Ankit Anand, Jordan Hoffmann, Nicolas Heess, Martin Riedmiller, Abbas Abdolmaleki, Doina Precup
Reinforcement Learning Action Space Policy Optimization Policy Design Task Specific Policy Behavior Policy Multi Objective Policy

August 3, 2023

Fast Slate Policy Optimization: Going Beyond Plackett-Luce
Otmane Sakhi, David Rohde, Nicolas Chopin
Action Space Policy Optimization LLM Model Large Scale Machine Learning Large Scale Decision