Reward Model

Reward models are crucial for aligning large language models (LLMs) and other AI systems with human preferences, enabling more helpful and harmless behavior. Current research focuses on improving reward model accuracy and robustness, exploring techniques like preference optimization, multimodal approaches incorporating both text and image data, and methods to mitigate biases and noise in reward signals, often employing transformer-based architectures and reinforcement learning algorithms. These advancements are vital for building more reliable and trustworthy AI systems, impacting both the development of safer LLMs and the broader field of human-centered AI.

Papers

September 26, 2024

Autoregressive Multi-trait Essay Scoring via Reinforcement Learning with Scoring-aware Multiple Rewards
Heejin Do, Sangwon Ryu, Gary Geunbae Lee
Reinforcement Learning Reward Model Essay Scoring Autoregressive Generation Trait Estimation

September 25, 2024

Post-hoc Reward Calibration: A Case Study on Length Bias
Zeyu Huang, Zihan Qiu, Zili Wang, Edoardo M. Ponti, Ivan Titov
Reinforcement Learning Case Study Reward Model Length Bias

September 24, 2024

September 20, 2024

September 18, 2024

Reward-Robust RLHF in LLMs
Yuzi Yan, Xingzhou Lou, Jialian Li, Yiping Zhang, Jian Xie, Chao Yu, Yu Wang, Dong Yan, Yuan Shen
Large Language Model Reward Model Reinforcement Learning From Human Feedback

September 16, 2024

Quantile Regression for Distributional Reward Models in RLHF
Nicolai Dorka
Reinforcement Learning Reward Model Reinforcement Learning From Human Feedback Risk Aware Reinforcement Learning Preference Reward

September 15, 2024

Towards Data-Centric RLHF: Simple Metrics for Preference Dataset Comparison
Judy Hanwen Shen, Archit Sharma, Jun Qin
Reward Model Metric Library Reinforcement Learning From Human Feedback Preference Datasets Preference Dataset

September 11, 2024

Policy Filtration in RLHF to Fine-Tune LLM for Code Generation
Wei Shen, Chuheng Zhang
Reinforcement Learning Medical LLM Code Generation Proximal Policy Optimization Reward Model Policy Learning Reinforcement Learning From Human Feedback Policy Search

September 10, 2024

Semi-Supervised Reward Modeling via Iterative Self-Training
Yifei He, Haoxiang Wang, Ziyan Jiang, Alexandros Papangelis, Han Zhao
Large Language Model Self Training Reward Model Semi Supervised Reward

September 9, 2024

On the Relationship between Truth and Political Bias in Language Models
Suyash Fulay, William Brannon, Shrestha Mohanty, Cassandra Overney, Elinor Poole-Dayan, Deb Roy, Jad Kabbara
Language Model Reward Model Human Relationship Great Truth Political Bias Language Model Alignment

September 2, 2024

Reward Augmentation in Reinforcement Learning for Testing Distributed Systems
Andrea Borgarelli, Constantin Enea, Rupak Majumdar, Srinidhi Nagendra
Reinforcement Learning Reward Model Test Bed Fuzz Testing Randomized Experiment Protocol Design

August 31, 2024

AdaNAT: Exploring Adaptive Policy for Token-Based Image Generation
Zanlin Ni, Yulin Wang, Renping Zhou, Rui Lu, Jiayi Guo, Jinyi Hu, Zhiyuan Liu, Yuan Yao, Gao Huang
Image Generation Reward Model Token Generation Adaptive Policy ImageNet E Non Autoregressive Transformer Adversarial Reward

August 30, 2024

Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback
Jiayi Zhou, Jiaming Ji, Juntao Dai, Yaodong Yang
Large Language Model Fine Grained Reward Model Sequence of Sequence Reinforcement Learning From Human Feedback Language Feedback

August 28, 2024

An Extremely Data-efficient and Generative LLM-based Reinforcement Learning Agent for Recommenders
Shuang Feng, Grace Feng
Reinforcement Learning Generative Question Reward Model Reinforcement Learning Agent Data Efficient

August 21, 2024

Critique-out-Loud Reward Models
Zachary Ankner, Mansheej Paul, Brandon Cui, Jonathan D. Chang, Prithviraj Ammanabrolu
Reward Model Reward Prediction Preference Modeling

August 19, 2024