Vanilla Reinforcement Learning

Vanilla reinforcement learning (RL) aims to develop agents that learn optimal policies through trial and error, but its susceptibility to various issues like reward corruption, lack of safety guarantees, and poor generalization hinders real-world applications. Current research focuses on improving robustness and safety through techniques such as incorporating temporal logic specifications, employing model-assisted learning, and developing robust algorithms that handle noisy or adversarial data. These advancements are crucial for deploying RL in safety-critical domains like autonomous driving and robotics, where reliable performance and interpretability are paramount.

Papers

September 5, 2024

Robust Q-Learning under Corrupted Rewards
Sreejeet Maity, Aritra Mitra
Q Learning Bellman Operator Vanilla Reinforcement Learning

February 13, 2024

Provable Traffic Rule Compliance in Safe Reinforcement Learning on the Open Sea
Hanna Krasowski, Matthias Althoff
Reinforcement Learning Autonomous Vehicle Temporal Logic Safe Reinforcement Learning Underwater Environment Traffic Rule Vanilla Reinforcement Learning

November 12, 2023

Model-assisted Reinforcement Learning of a Quadrotor
Arshad Javeed
Reinforcement Learning Multi Objective Reinforcement Learning Classical Control Vanilla Reinforcement Learning

November 5, 2023

On the Second-Order Convergence of Biased Policy Gradient Algorithms
Siqiao Mu, Diego Klabjan
Policy Gradient Actor Critic Algorithm Vanilla Reinforcement Learning

October 29, 2023

Optimization Landscape of Policy Gradient Methods for Discrete-time Static Output Feedback
Jingliang Duan, Jie Li, Xuyang Chen, Kai Zhao, Shengbo Eben Li, Lin Zhao
Reinforcement Learning Policy Gradient Discrete Time Natural Policy Gradient Optimization Landscape Vanilla Reinforcement Learning

December 12, 2022

Safe Reinforcement Learning with Probabilistic Guarantees Satisfying Temporal Logic Specifications in Continuous Action Spaces
Hanna Krasowski, Prithvi Akella, Aaron D. Ames, Matthias Althoff
Action Space Safe Reinforcement Learning Safety Guarantee Probabilistic Safety Vanilla Reinforcement Learning Probabilistic Temporal Logic

May 19, 2022

Towards Applicable Reinforcement Learning: Improving the Generalization and Sample Efficiency with Policy Ensemble
Zhengyu Yang, Kan Ren, Xufang Luo, Minghuan Liu, Weiqing Liu, Jiang Bian, Weinan Zhang, Dongsheng Li
Reinforcement Learning Strong Generalization Proximal Policy Optimization Sample Efficiency Ensemble Deep Reinforcement Learning Vanilla Reinforcement Learning

March 22, 2022

March 16, 2022

How to Learn from Risk: Explicit Risk-Utility Reinforcement Learning for Efficient and Safe Driving Strategies
Lukas M. Schmidt, Sebastian Rietsch, Axel Plinge, Bjoern M. Eskofier, Christopher Mutschler
Autonomous Driving Autonomous Vehicle High Efficiency Safe Reinforcement Learning High Quality Risk Description Driving Policy Risk Averse Reinforcement Learning Vanilla Reinforcement Learning

Vanilla Reinforcement Learning

Papers

Robust Q-Learning under Corrupted Rewards

Provable Traffic Rule Compliance in Safe Reinforcement Learning on the Open Sea

Model-assisted Reinforcement Learning of a Quadrotor

On the Second-Order Convergence of Biased Policy Gradient Algorithms

Optimization Landscape of Policy Gradient Methods for Discrete-time Static Output Feedback

Safe Reinforcement Learning with Probabilistic Guarantees Satisfying Temporal Logic Specifications in Continuous Action Spaces

Towards Applicable Reinforcement Learning: Improving the Generalization and Sample Efficiency with Policy Ensemble

Is Vanilla Policy Gradient Overlooked? Analyzing Deep Reinforcement Learning for Hanabi

A Note on Target Q-learning For Solving Finite MDPs with A Generative Oracle

How to Learn from Risk: Explicit Risk-Utility Reinforcement Learning for Efficient and Safe Driving Strategies