Offline Preference Based Reinforcement Learning

Offline preference-based reinforcement learning (PbRL) aims to train reinforcement learning agents using only pre-collected data and human preferences between different action sequences, eliminating the need for manually designed reward functions or online interaction. Current research focuses on improving reward estimation from these preferences, exploring methods that leverage higher-order preference information and incorporate hindsight or future outcomes to better capture human intent. This approach is significant because it addresses the challenges of reward specification in complex real-world scenarios, potentially enabling broader application of RL in domains where precise reward functions are difficult or impossible to define.

Papers

August 8, 2024

Listwise Reward Estimation for Offline Preference-based Reinforcement Learning
Heewoong Choi, Sangwon Jung, Hongjoon Ahn, Taesup Moon
Reinforcement Learning Reward Function Reward Model Second Order Offline Preference Based Reinforcement Learning Reward Estimator

July 5, 2024

Hindsight Preference Learning for Offline Preference-based Reinforcement Learning
Chen-Xiao Gao, Shengjun Fang, Chenjun Xiao, Yang Yu, Zongzhang Zhang
Preference Learning Reward Signal Preference Based Reinforcement Learning Offline Preference Based Reinforcement Learning

June 26, 2024

Preference Elicitation for Offline Reinforcement Learning
Alizée Pace, Bernhard Schölkopf, Gunnar Rätsch, Giorgia Ramponi
Reinforcement Learning Offline Reinforcement Learning Preference Feedback Preference Based Reinforcement Learning Preference Elicitation Learned Environment Model Offline Preference Based Reinforcement Learning

June 14, 2024

Binary Reward Labeling: Bridging Offline Preference and Reward-Based Reinforcement Learning
Yinglun Xu, David Zhu, Rohan Gumaste, Gagandeep Singh
Reinforcement Learning Offline Reinforcement Learning Offline Preference Offline RL Offline Preference Based Reinforcement Learning Scalar Reward

December 30, 2023

Two-Step Offline Preference-Based Reinforcement Learning with Constrained Actions
Yinglun Xu, Tarun Suresh, Rohan Gumaste, David Zhu, Ruirui Li, Zhengyang Wang, Haoming Jiang, Xianfeng Tang, Qingyu Yin, Monica Xiao Cheng, Qi Zeng, Chao Zhang, Gagandeep Singh
Reinforcement Learning Preference Feedback Two Phase Offline Preference Based Reinforcement Learning

May 25, 2023

Beyond Reward: Offline Preference-guided Policy Optimization
Yachen Kang, Diyuan Shi, Jinxin Liu, Li He, Donglin Wang
Reinforcement Learning Policy OpTimization Reward Report Action Free Offline Offline Preference Based Reinforcement Learning

May 24, 2023

Provable Offline Preference-Based Reinforcement Learning
Wenhao Zhan, Masatoshi Uehara, Nathan Kallus, Jason D. Lee, Wen Sun
Reinforcement Learning Offline Data Implicit Reward State Reward Single Policy Concentrability Offline Preference Based Reinforcement Learning