Reward Model

Reward models are crucial for aligning large language models (LLMs) and other AI systems with human preferences, enabling more helpful and harmless behavior. Current research focuses on improving reward model accuracy and robustness, exploring techniques like preference optimization, multimodal approaches incorporating both text and image data, and methods to mitigate biases and noise in reward signals, often employing transformer-based architectures and reinforcement learning algorithms. These advancements are vital for building more reliable and trustworthy AI systems, impacting both the development of safer LLMs and the broader field of human-centered AI.

Papers

August 16, 2024

SEAL: Systematic Error Analysis for Value ALignment
Manon Revel, Matteo Cargnelutti, Tyna Eloundou, Greg Leppert
Reward Model Value Alignment Error Analysis Seal Generation Alignment Dataset Aware Alignment

August 8, 2024

Listwise Reward Estimation for Offline Preference-based Reinforcement Learning
Heewoong Choi, Sangwon Jung, Hongjoon Ahn, Taesup Moon
Reinforcement Learning Reward Function Reward Model Second Order Offline Preference Based Reinforcement Learning Reward Estimator

August 5, 2024

Self-Taught Evaluators
Tianlu Wang, Ilia Kulikov, Olga Golovneva, Ping Yu, Weizhe Yuan, Jane Dwivedi-Yu, Richard Yuanzhe Pang, Maryam Fazel-Zarandi, Jason Weston, Xian Li
Reward Model Synthetic Training Data Model Based Evaluation

July 24, 2024

Exploring Domain Robust Lightweight Reward Models based on Router Mechanism
Hyuk Namgoong, Jeesu Jung, Sangkeun Jung, Yoonhyung Roh
Language Model Reward Model Dynamic Routing Robust Reward

July 22, 2024

Boosting Reward Model with Preference-Conditional Multi-Aspect Synthetic Data Generation
Jiaming Shen, Ran Xu, Yennie Jun, Zhen Qin, Tianqi Liu, Carl Yang, Yi Liang, Simon Baumgartner, Michael Bendersky
Reward Model Synthetic Preference Preference Label

July 19, 2024

Catastrophic Goodhart: regularizing RLHF with KL divergence does not mitigate heavy-tailed reward misspecification
Thomas Kwa, Drake Thomas, Adrià Garriga-Alonso
Reinforcement Learning Optimal Policy Reward Model Reinforcement Learning From Human Feedback Heavy Tailed KL Divergence Heavy Tailed Reward Extinction Risk

July 18, 2024

July 11, 2024

Video Diffusion Alignment via Reward Gradients
Mihir Prabhudesai, Russell Mendonca, Zheyang Qin, Katerina Fragkiadaki, Deepak Pathak
Reward Model Video Diffusion Model Diffusion Alignment Reward Gradient

July 4, 2024

HAF-RM: A Hybrid Alignment Framework for Reward Model Training
Shujun Liu, Xiaoyu Shen, Yuhang Lai, Siyuan Wang, Shengbin Yue, Zengfeng Huang, Xuanjing Huang, Zhongyu Wei
Reward Model Optimal Alignment Reward Model Training

July 1, 2024

DogeRM: Equipping Reward Models with Domain Knowledge through Model Merging
Tzu-Han Lin, Chen-An Li, Hung-yi Lee, Yun-Nung Chen
Reinforcement Learning Domain Knowledge Reward Model Model Merging Specific Preference

June 24, 2024

Beyond Thumbs Up/Down: Untangling Challenges of Fine-Grained Feedback for Text-to-Image Generation
Katherine M. Collins, Najoung Kim, Yonatan Bitton, Verena Rieser, Shayegan Omidshafiei, Yushi Hu, Sherol Chen, Senjuti Dutta, Minsuk Chang, Kimin Lee, Youwei Liang, Georgina Evans, Sahil Singla, Gang Li, Adrian Weller, Junfeng He, Deepak Ramachandran, Krishnamurthy Dj Dvijotham
Text to Image Generation Reward Model Human Finger Fine Grained Feedback

June 22, 2024

The Perils of Optimizing Learned Reward Functions: Low Training Error Does Not Guarantee Low Regret
Lukas Fluri, Leon Lang, Alessandro Abate, Patrick Forré, David Krueger, Joar Skalse
Reinforcement Learning Reward Function Reward Model Efficient Optimization Low Regret Regret Matching Low Training Error

June 15, 2024

EvIL: Evolution Strategies for Generalisable Imitation Learning
Silvia Sapora, Gokul Swamy, Chris Lu, Yee Whye Teh, Jakob Nicolaus Foerster
Imitation Learning Inverse Reinforcement Learning Reward Model Feature Imitation Behavior Cloning Evolution Strategy

June 14, 2024

June 12, 2024