Policy Reinforcement Learning

Policy reinforcement learning aims to train agents to make optimal decisions in sequential environments by learning effective policies from data, often overcoming challenges like sparse rewards and high-dimensional state spaces. Current research emphasizes improving sample efficiency and robustness through techniques like off-policy learning with importance sampling adjustments, the development of novel algorithms (e.g., actor-critic methods, GFlowNets), and incorporating advanced model architectures (e.g., recurrent neural networks, diffusion models) to handle complex data and environments. These advancements hold significant promise for diverse applications, including robotics, personalized medicine, and resource management, by enabling more efficient and reliable learning from limited or complex data.

Papers

May 31, 2023

AccMER: Accelerating Multi-Agent Experience Replay with Cache Locality-aware Prioritization
Kailash Gogineni, Yongsheng Mei, Peng Wei, Tian Lan, Guru Venkataramani
Policy Reinforcement Learning Multiple Agent Experience Replay Multi Agent Reinforcement

May 29, 2023

Off-Policy RL Algorithms Can be Sample-Efficient for Continuous Control via Sample Multiple Reuse
Jiafei Lyu, Le Wan, Zongqing Lu, Xiu Li
Q Learning Policy Reinforcement Learning Online Reinforcement Learning Continuous Control Independent Sampling

May 23, 2023

Optimizing Long-term Value for Auction-Based Recommender Systems via On-Policy Reinforcement Learning
Ruiyang Xu, Jalaj Bhandari, Dmytro Korenkevych, Fan Liu, Yuchen He, Alex Nikulkov, Zheqing Zhu
Policy Reinforcement Learning Recommendation Module Long Term User Engagement

May 17, 2023

Scalable and Safe Remediation of Defective Actions in Self-Learning Conversational Systems
Sarthak Ahuja, Mohammad Kachuee, Fateme Sheikholeslami, Weiqing Liu, Jaeyoung Do
Potential Scalability Policy Evaluation Policy Reinforcement Learning Conversational System Policy Improvement Conversational Artificial Intelligence Remediation Strategy Action Correction

May 4, 2023

Rethinking Population-assisted Off-policy Reinforcement Learning
Bowen Zheng, Ran Cheng
Policy Reinforcement Learning Population Based

April 24, 2023

Parallel bootstrap-based on-policy deep reinforcement learning for continuous flow control applications
J. Viquerat, E. Hachem
Deep Reinforcement Learning Policy Reinforcement Learning Health Policy Recommendation Flow Control

April 12, 2023

March 31, 2023

An Efficient Off-Policy Reinforcement Learning Algorithm for the Continuous-Time LQR Problem
Victor G. Lopez, Matthias A. Müller
Policy Reinforcement Learning Active Exploration Optimal Control Input

March 15, 2023

Muti-Agent Proximal Policy Optimization For Data Freshness in UAV-assisted Networks
Mouhamed Naby Ndiaye, El Houcine Bergou, Hajar El Hammouti
Reinforcement Learning Proximal Policy Optimization Policy Reinforcement Learning Cooperative Multi Agent Reinforcement Learning Multi Agent Proximal Policy Optimization Data Quality Issue UAV Assisted

March 3, 2023

Guarded Policy Optimization with Imperfect Online Demonstrations
Zhenghai Xue, Zhenghao Peng, Quanyi Li, Zhihan Liu, Bolei Zhou
Reinforcement Learning Policy Reinforcement Learning Efficient Exploration Expert Demonstration Teacher Student Multiple Teacher

February 21, 2023

MAC-PO: Multi-Agent Experience Replay via Collective Priority Optimization
Yongsheng Mei, Hanhan Zhou, Tian Lan, Guru Venkataramani, Peng Wei
Multi Agent Reinforcement Learning Policy Reinforcement Learning Regret Minimization Experience Replay Multi Agent Challenge Priority Based

February 15, 2023

Deep Offline Reinforcement Learning for Real-world Treatment Optimization Applications
Milashini Nambiar, Supriyo Ghosh, Priscilla Ong, Yu En Chan, Yong Mong Bee, Pavitra Krishnaswamy
Reinforcement Learning Policy Reinforcement Learning Conservative Q Learning Double Deep Q Network Optimal Treatment

February 6, 2023

February 1, 2023

Distillation Policy Optimization
Jianfei Ma
Policy Reinforcement Learning Policy Algorithm Policy Distillation Policy Data

January 26, 2023

Trajectory-Aware Eligibility Traces for Off-Policy Reinforcement Learning
Brett Daley, Martha White, Christopher Amato, Marlos C. Machado
Policy Reinforcement Learning Sample Efficient Reinforcement Learning Policy Algorithm

January 20, 2023

On Multi-Agent Deep Deterministic Policy Gradients and their Explainability for SMARTS Environment
Ansh Mittal, Aditya Malte
Autonomous Driving High Explainability Policy Reinforcement Learning Autonomous Driving Research Smart Environment Multi Agent RL Multi Agent Deep Deterministic Policy Cooperative Multi Agent Learning

December 29, 2022

Offline Policy Optimization in RL with Variance Regularizaton
Riashat Islam, Samarth Sinha, Homanga Bharadhwaj, Samin Yeasar Arnob, Zhuoran Yang, Animesh Garg, Zhaoran Wang, Lihong Li, Doina Precup
Policy Reinforcement Learning Offline Policy Variance Regularization

December 26, 2022

Off-Policy Reinforcement Learning with Loss Function Weighted by Temporal Difference Error
Bumgeun Park, Taeyoung Kim, Woohyeon Moon, Luiz Felipe Vecchietti, Dongsoo Har
Loss Function Policy Reinforcement Learning Memory Replay Policy Algorithm Policy Deep Reinforcement Learning

Policy Reinforcement Learning

Papers

AccMER: Accelerating Multi-Agent Experience Replay with Cache Locality-aware Prioritization

Off-Policy RL Algorithms Can be Sample-Efficient for Continuous Control via Sample Multiple Reuse

Optimizing Long-term Value for Auction-Based Recommender Systems via On-Policy Reinforcement Learning

Scalable and Safe Remediation of Defective Actions in Self-Learning Conversational Systems

Rethinking Population-assisted Off-policy Reinforcement Learning

Parallel bootstrap-based on-policy deep reinforcement learning for continuous flow control applications

NaviSTAR: Socially Aware Robot Navigation with Hybrid Spatio-Temporal Graph Transformer and Preference Learning

Exploiting Symmetry and Heuristic Demonstrations in Off-policy Reinforcement Learning for Robotic Manipulation

An Efficient Off-Policy Reinforcement Learning Algorithm for the Continuous-Time LQR Problem

Muti-Agent Proximal Policy Optimization For Data Freshness in UAV-assisted Networks

Guarded Policy Optimization with Imperfect Online Demonstrations

MAC-PO: Multi-Agent Experience Replay via Collective Priority Optimization

Deep Offline Reinforcement Learning for Real-world Treatment Optimization Applications

DITTO: Offline Imitation Learning with World Models

Efficient Online Reinforcement Learning with Offline Data

Distillation Policy Optimization

Trajectory-Aware Eligibility Traces for Off-Policy Reinforcement Learning

On Multi-Agent Deep Deterministic Policy Gradients and their Explainability for SMARTS Environment

Offline Policy Optimization in RL with Variance Regularizaton

Off-Policy Reinforcement Learning with Loss Function Weighted by Temporal Difference Error