the latest in aiBeta

Policy Gradient

Policy gradient methods are a core component of reinforcement learning, aiming to optimize policies by directly estimating the gradient of expected cumulative rewards. Current research emphasizes improving sample efficiency and addressing challenges like high-dimensional state spaces and non-convex optimization landscapes through techniques such as residual policy learning, differentiable simulation, and novel policy architectures (e.g., tree-based, low-rank matrix models). These advancements are significant for both theoretical understanding of reinforcement learning algorithms and practical applications in robotics, control systems, and other domains requiring efficient and robust decision-making under uncertainty.

330papers

Papers - Page 3

November 7, 2024

Think Smart, Act SMARL! Analyzing Probabilistic Logic Driven Safety in Multi-Agent Reinforcement Learning
Satchit Chatterji, Erman Acar
Reinforcement Learning Model Based Safe Reinforcement Learning Multi Agent Reinforcement Q Learning Safety Guarantee Multi Agent Reinforcement Learning Policy Gradient Safe Multi Agent Reinforcement Learning

October 29, 2024

Policy Gradient for Robust Markov Decision Processes
Qiuhao Wang, Shaohang Xu, Chin Pang Ho, Marek Petrick
Policy Mirror Descent Robust Markov Decision Process Policy OpTimization Policy Gradient

October 28, 2024

October 25, 2024

Enhancing Safety in Reinforcement Learning with Human Feedback via Rectified Policy Optimization
Xiyue Peng, Hengquan Guo, Jiawei Zhang, Dongqing Zou, Ziyu Shao, Honghao Wei, Xin Liu
Safety Constraint Enhancing Safety Safety Alignment Policy OpTimization Reinforcement Learning Policy Gradient Human Feedback

October 24, 2024

Multi-agent cooperation through learning-aware policy gradients
Alexander Meulemans, Seijin Kobayashi, Johannes von Oswald, Nino Scherrer, Eric Elmoznino, Blake Richards, Guillaume Lajoie+2
Cooperative Behavior Multi Agent Cooperation Multi Agent Learning Policy Gradient Model Free Policy

October 21, 2024

Learning Quadrotor Control From Visual Features Using Differentiable Simulation
Johannes Heeg, Yunlong Song, Davide Scaramuzza
Quadrotor Control Policy Gradient Visual Feature Differentiable Simulation Closed Form Differentiable Expression Simulation Study Reinforcement Learning Model Free Reinforcement Learning

October 8, 2024

Learning in complex action spaces without policy gradients
Arash Tavakoli, Sina Ghiassian, Nemanja Rakićević
Policy Gradient LeArning Abstract Q Learning Action Space

October 4, 2024

Residual Policy Learning for Perceptive Quadruped Control Using Differentiable Simulation
Jing Yuan Luo, Yunlong Song, Victor Klemm, Fan Shi, Davide Scaramuzza, Marco Hutter
Residual Reinforcement Learning Model Free Reinforcement Learning Differentiable Simulation Perceptive Locomotion Policy Gradient First Order Policy

October 3, 2024

A Prospect-Theoretic Policy Gradient Algorithm for Behavioral Alignment in Reinforcement Learning
Olivier Lepel, Anas Barakat
Prospect Theory Stock Return Prediction Policy Gradient Policy Gradient Algorithm

September 28, 2024

Strongly-polynomial time and validation analysis of policy gradient methods
Caleb Ju, Guanghui Lan
Policy Gradient Convergence Rate Policy Mirror Descent Polynomial Time Experimental Validation

September 25, 2024

September 12, 2024

September 9, 2024

Towards Fast Rates for Federated and Multi-Task Reinforcement Learning
Feng Zhu, Robert W. Heath Jr., Aritra Mitra
Federated Prompt Cooperation Markov Decision Process Multi Task Reinforcement Learning Optimal Policy Fast Rate Policy Gradient Algorithm Policy Gradient

September 5, 2024

Differentiable Discrete Event Simulation for Queuing Network Control
Ethan Che, Jing Dong, Hongseok Namkoong
Policy Gradient Network Control Policy OpTimization Differentiable Simulation

September 3, 2024

Policy Gradients for Optimal Parallel Tempering MCMC
Daniel Zhao, Natesh S. Pillai
Markov Chain Monte Carlo Side Chain Distribution Shift Benchmark Thermal Management Parallel Tempering Policy Gradient

September 1, 2024

Diffusion Policy Policy Optimization
Allen Z. Ren, Justin Lidard, Lars L. Ankile, Anthony Simeonov, Pulkit Agrawal, Anirudha Majumdar, Benjamin Burchfiel, Hongkai Dai, Max Simchowitz
Policy Gradient Trained Policy Diffusion Policy

August 29, 2024

Efficient Multi-agent Navigation with Lightweight DRL Policy
Xingrong Diao, Jiankun Wang
Policy Gradient COLlision Avoidance Agent Training Multi Agent Navigation Deep Reinforcement Learning Real Robot