Policy Based Algorithm

Policy-based reinforcement learning algorithms aim to directly optimize a policy—a strategy for selecting actions—to maximize cumulative reward in a given environment. Current research focuses on improving the efficiency and stability of these algorithms, particularly through advancements in actor-critic methods and adaptive step-size learning techniques, often applied within deep learning frameworks like Proximal Policy Optimization (PPO). These improvements address challenges such as hyperparameter sensitivity and the need for effective exploration in complex environments, leading to better performance in diverse applications ranging from robotics and production systems to speech recognition.

Papers

June 3, 2024

Value Improved Actor Critic Algorithms
Yaniv Oren, Moritz A. Zanger, Pascal R. van der Vaart, Matthijs T. J. Spaan, Wendelin Bohmer
Actor Critic Algorithm State of the Art Reinforcement Simultaneous Improvement Policy Based Algorithm

June 13, 2023

Stepsize Learning for Policy Gradient Methods in Contextual Markov Decision Processes
Luca Sabbioni, Francesco Corda, Marcello Restelli
Policy Gradient Action Space Model Free Meta Reinforcement Learning Batch Reinforcement Learning Contextual Markov Decision Process Policy Based Algorithm

June 2, 2023

Deep Q-Learning versus Proximal Policy Optimization: Performance Comparison in a Material Sorting Task
Reuf Kozlica, Stefan Wegenkittl, Simon Hirländer
Proximal Policy Optimization Deep Q Learning Performance Comparison Material Separation Policy Based Algorithm

October 16, 2022

A Policy-based Approach to the SpecAugment Method for Low Resource E2E ASR
Rui Li, Guodong Ma, Dexin Zhao, Ranran Zeng, Xiaoyu Li, Hao Huang
Automatic Speech Recognition Low Resource Health Policy Recommendation Policy Design End 2 End Automatic Speech Augmentation Policy Policy Based Algorithm

October 2, 2022

Policy Gradients for Probabilistic Constrained Reinforcement Learning
Weiqin Chen, Dharmashankar Subramanian, Santiago Paternain
Reinforcement Learning Policy Gradient Policy Optimization Constrained Reinforcement Learning Probabilistic Safety Probabilistic Constraint Policy Based Algorithm

August 5, 2022

An Approximate Policy Iteration Viewpoint of Actor-Critic Algorithms
Zaiwei Chen, Siva Theja Maguluri
Actor Critic Algorithm Policy Iteration Natural Policy Gradient Reinforcement Learning Problem Approximate Policy Iteration Policy Sampling Policy Based Algorithm