Conservative Q Learning

Conservative Q-learning (CQL) is an offline reinforcement learning algorithm designed to mitigate the risk of overestimating value functions, a common problem when learning from static datasets. Current research focuses on improving CQL's performance and robustness through techniques like incorporating novel neural network architectures (e.g., Kolmogorov-Arnold Networks), addressing data imbalances, and developing more nuanced approaches to pessimism in value estimation. These advancements are significant because they enhance the reliability and applicability of offline RL in various domains, including robotics, healthcare, and resource management, where online learning is impractical or unsafe.

Papers

October 5, 2022

Towards Safe Mechanical Ventilation Treatment Using Deep Offline Reinforcement Learning
Flemming Kondrup, Thomas Jiralerspong, Elaine Lau, Nathan de Lara, Jacob Shkrob, My Duc Tran, Doina Precup, Sumana Basu
Conservative Q Learning Mechanical Ventilation

August 1, 2022

A Maintenance Planning Framework using Online and Offline Deep Reinforcement Learning
Zaharah A. Bukhsh, Nils Jansen, Hajo Molegraaf
Deep Reinforcement Learning Deep Q Learning Online Service Conservative Q Learning Maintenance Planning Offline Deep Reinforcement Learning

July 7, 2022

Multi-objective Optimization of Notifications Using Offline Reinforcement Learning
Prakruthi Prabhakar, Yiping Yuan, Guangyu Yang, Wensheng Sun, Ajith Muralidharan
Offline Reinforcement Learning Multi Objective Optimization Conservative Q Learning Large Scale Decision Notification System Mobile Notification

June 9, 2022

Mildly Conservative Q-Learning for Offline Reinforcement Learning
Jiafei Lyu, Xiaoteng Ma, Xiu Li, Zongqing Lu
Strong Generalization Offline Reinforcement Learning Conservative Q Learning Offline Learning

March 25, 2022

A Conservative Q-Learning approach for handling distribution shift in sepsis treatment strategies
Pramod Kaushik, Sneha Kummetha, Perusha Moodley, Raju S. Bapi
Distribution Shift Q Learning Optimal Policy Conservative Q Learning Offline RL Algorithm Sepsis Treatment

March 18, 2022

Infinite-Horizon Reach-Avoid Zero-Sum Games via Deep Reinforcement Learning
Jingqi Li, Donggun Lee, Somayeh Sojoudi, Claire J. Tomlin
Deep Reinforcement Learning Optimal Control Conservative Q Learning Backward Reachability

March 6, 2022

Offline Deep Reinforcement Learning for Dynamic Pricing of Consumer Credit
Raad Khraishi, Ramin Okhrati
Dynamic Pricing Conservative Q Learning Offline Deep Reinforcement Learning Consumer Credit

Conservative Q Learning

Papers

Towards Safe Mechanical Ventilation Treatment Using Deep Offline Reinforcement Learning

A Maintenance Planning Framework using Online and Offline Deep Reinforcement Learning

Multi-objective Optimization of Notifications Using Offline Reinforcement Learning

Mildly Conservative Q-Learning for Offline Reinforcement Learning

A Conservative Q-Learning approach for handling distribution shift in sepsis treatment strategies

Infinite-Horizon Reach-Avoid Zero-Sum Games via Deep Reinforcement Learning

Offline Deep Reinforcement Learning for Dynamic Pricing of Consumer Credit