Reward Model

Reward models are crucial for aligning large language models (LLMs) and other AI systems with human preferences, enabling more helpful and harmless behavior. Current research focuses on improving reward model accuracy and robustness, exploring techniques like preference optimization, multimodal approaches incorporating both text and image data, and methods to mitigate biases and noise in reward signals, often employing transformer-based architectures and reinforcement learning algorithms. These advancements are vital for building more reliable and trustworthy AI systems, impacting both the development of safer LLMs and the broader field of human-centered AI.

Papers

February 13, 2024

Confronting Reward Overoptimization for Diffusion Models: A Perspective of Inductive and Primacy Biases
Ziyi Zhang, Sen Zhang, Yibing Zhan, Yong Luo, Yonggang Wen, Dacheng Tao
Diffusion Model Visual Perspective Reward Model Diffusion Policy Downstream Model Reward Overoptimization Inductive Task Primacy Bias

February 11, 2024

ODIN: Disentangled Reward Mitigates Hacking in RLHF
Lichang Chen, Chen Zhu, Davit Soselia, Jiuhai Chen, Tianyi Zhou, Tom Goldstein, Heng Huang, Mohammad Shoeybi, Bryan Catanzaro
Reinforcement Learning Reward Model Reinforcement Learning From Human Feedback Length Bias Reward Hacking

February 6, 2024

SEABO: A Simple Search-Based Method for Offline Imitation Learning
Jiafei Lyu, Xiaoteng Ma, Le Wan, Runze Liu, Xiu Li, Zongqing Lu
Offline Reinforcement Learning Reward Model Offline Imitation Search Based Offline Imitation Learning

February 2, 2024

Preference Poisoning Attacks on Reward Model Learning
Junlin Wu, Jiongxiao Wang, Chaowei Xiao, Chenguang Wang, Ning Zhang, Yevgeniy Vorobeychik
Reward Model Preference Learning Pairwise Comparison Preference Rating Attack Algorithm Preference Poisoning

February 1, 2024

January 30, 2024

Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble
Shun Zhang, Zhenfang Chen, Sunli Chen, Yikang Shen, Zhiqing Sun, Chuang Gan
Large Language Model Reinforcement Learning Human Feedback Reward Model

January 22, 2024

West-of-N: Synthetic Preferences for Self-Improving Reward Models
Alizée Pace, Jonathan Mallinson, Eric Malmi, Sebastian Krause, Aliaksei Severyn
Language Model Reward Model Preference Pair Synthetic Preference

January 18, 2024

Self-Rewarding Language Models
Weizhe Yuan, Richard Yuanzhe Pang, Kyunghyun Cho, Xian Li, Sainbayar Sukhbaatar, Jing Xu, Jason Weston
Language Model Reward Model Iterative Training Language Reward

January 11, 2024

Secrets of RLHF in Large Language Models Part II: Reward Modeling
Binghai Wang, Rui Zheng, Lu Chen, Yan Liu, Shihan Dou, Caishuang Huang, Wei Shen, Senjie Jin, Enyu Zhou, Chenyu Shi, Songyang Gao, Nuo Xu, Yuhao Zhou, Xiaoran Fan, Zhiheng Xi, Jun Zhao, Xiao Wang, Tao Ji, Hang Yan, Lixing Shen, Zhan Chen, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang, Zuxuan Wu, Yu-Gang Jiang
Reinforcement Learning Reward Model Reinforcement Learning From Human Feedback Reward Report Dark Secret

December 30, 2023

Uncertainty-Penalized Reinforcement Learning from Human Feedback with Diverse Reward LoRA Ensembles
Yuanzhao Zhai, Han Zhang, Yu Lei, Yue Yu, Kele Xu, Dawei Feng, Bo Ding, Huaimin Wang
Reinforcement Learning Human Feedback Reward Model Low Rank Adaptation Reinforcement Learning From Human Feedback Reward Ambiguity

December 27, 2023

Inverse Reinforcement Learning with Unknown Reward Model based on Structural Risk Minimization
Chendi Qu, Jianping He, Xiaoming Duan, Jiming Chen
Policy Gradient Reward Function Inverse Reinforcement Learning Reward Model Risk Minimization

December 19, 2023

InstructVideo: Instructing Video Diffusion Models with Human Feedback
Hangjie Yuan, Shiwei Zhang, Xiang Wang, Yujie Wei, Tao Feng, Yining Pan, Yingya Zhang, Ziwei Liu, Samuel Albanie, Dong Ni
Human Feedback Reward Model Video Diffusion Model Text to Video Diffusion Model Reward Prediction Reward Fine Tuning

December 14, 2023

December 11, 2023

A Robust Mixed-Effects Bandit Algorithm for Assessing Mobile Health Interventions
Easton K. Huch, Jieru Shi, Madeline R. Abbott, Jessica R. Golbus, Alexander Moreno, Walter H. Dempsey
Reward Model Mobile Health Health Intervention Robust Multi Armed Bandit

December 4, 2023

Foundations for Transfer in Reinforcement Learning: A Taxonomy of Knowledge Modalities
Markus Wulfmeier, Arunkumar Byravan, Sarah Bechtle, Karol Hausman, Nicolas Heess
Reinforcement Learning Strong Generalization AI System Formality Transfer Reward Model Comprehensive Taxonomy Flawed Foundation

December 2, 2023

Axiomatic Preference Modeling for Longform Question Answering
Corby Rosset, Guoqing Zheng, Victor Dibia, Ahmed Awadallah, Paul Bennett
Question Answering Reward Model Preference Model Preference Based

November 22, 2023

Using Human Feedback to Fine-tune Diffusion Models without Any Reward Model
Kai Yang, Jian Tao, Jiafei Lyu, Chunjiang Ge, Jiaxin Chen, Qimai Li, Weihan Shen, Xiaolong Zhu, Xiu Li
Diffusion Model Human Feedback Reward Model Diffusion Policy Robust Reward