Reward Model

Reward models are crucial for aligning large language models (LLMs) and other AI systems with human preferences, enabling more helpful and harmless behavior. Current research focuses on improving reward model accuracy and robustness, exploring techniques like preference optimization, multimodal approaches incorporating both text and image data, and methods to mitigate biases and noise in reward signals, often employing transformer-based architectures and reinforcement learning algorithms. These advancements are vital for building more reliable and trustworthy AI systems, impacting both the development of safer LLMs and the broader field of human-centered AI.

Papers

April 12, 2024

RLHF Deciphered: A Critical Analysis of Reinforcement Learning from Human Feedback for LLMs
Shreyas Chaudhari, Pranjal Aggarwal, Vishvak Murahari, Tanmay Rajpurohit, Ashwin Kalyan, Karthik Narasimhan, Ameet Deshpande, Bruno Castro da Silva
Large Language Model Language Model Reinforcement Learning Human Feedback Reward Model Critical Review Reinforcement Learning From Human Feedback

April 10, 2024

Generalized Linear Bandits with Limited Adaptivity
Ayush Sawarni, Nirjhar Das, Siddharth Barman, Gaurav Sinha
Adaptive Importance Reward Model O$ Regret Linear Contextual Bandit

April 7, 2024

April 2, 2024

VLRM: Vision-Language Models act as Reward Models for Image Captioning
Maksim Dzabraev, Alexander Kunitsyn, Andrei Ivaniuta
Reinforcement Learning Vision Language Model Image Captioning Reward Model Captioning Model Speed Recall

April 1, 2024

Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward
Ruohong Zhang, Liangke Gui, Zhiqing Sun, Yihao Feng, Keyang Xu, Yuanhan Zhang, Di Fu, Chunyuan Li, Alexander Hauptmann, Yonatan Bisk, Yiming Yang
Reward Model Direct Preference Optimization Video Question Answering Language Reward Preference Model Preference Modeling

March 28, 2024

March 27, 2024

Rejection Improves Reliability: Training LLMs to Refuse Unknown Questions Using RL from Knowledge Feedback
Hongshen Xu, Zichen Zhu, Situo Zhang, Da Ma, Shuai Fan, Lu Chen, Kai Yu
Reward Model Human Like RL Risky Prompt Rejection Knowledge Sharing Model Reliability Unknown Question Knowledge Boundary

March 22, 2024

Risk and Response in Large Language Models: Evaluating Key Threat Categories
Bahareh Harandizadeh, Abel Salinas, Fred Morstatter
Reward Model High Quality Risk Description Preference Learning Non Negative Textual Response Artificial Intelligence Safety

March 20, 2024

RewardBench: Evaluating Reward Models for Language Modeling
Nathan Lambert, Valentina Pyatkin, Jacob Morrison, LJ Miranda, Bill Yuchen Lin, Khyathi Chandu, Nouha Dziri, Sachin Kumar, Tom Zick, Yejin Choi, Noah A. Smith, Hannaneh Hajishirzi
Reward Model Implicit Reward Reward Model Training Reward Value

March 17, 2024

Improving Dialogue Agents by Decomposing One Global Explicit Annotation with Local Implicit Multimodal Feedback
Dong Won Lee, Hae Won Park, Yoon Kim, Cynthia Breazeal, Louis-Philippe Morency
LLM Based Reward Model Reward Signal Dialogue Agent Multimodal Feedback Conversation Metric

March 14, 2024

Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision
Zhiqing Sun, Longhui Yu, Yikang Shen, Weiyang Liu, Yiming Yang, Sean Welleck, Chuang Gan
Reward Model Complex Reasoning Task AI Alignment Easy to Hard Generalization

March 8, 2024

Unfamiliar Finetuning Examples Control How Language Models Hallucinate
Katie Kang, Eric Wallace, Claire Tomlin, Aviral Kumar, Sergey Levine
Language Model Fine Tuning Reward Model

March 4, 2024

Reward Model Learning vs. Direct Policy Optimization: A Comparative Analysis of Learning from Human Preferences
Andi Nika, Debmalya Mandal, Parameswaran Kamalaruban, Georgios Tzannetos, Goran Radanović, Adish Singla
Reinforcement Learning LeArning Abstract Markov Decision Process Comparative Study Reward Function Reward Model Direct Preference Optimization Human Preference Direct Policy Log Linear Policy

February 23, 2024

Leveraging Domain Knowledge for Efficient Reward Modelling in RLHF: A Case-Study in E-Commerce Opinion Summarization
Swaroop Nath, Tejpalsingh Siledar, Sankara Sri Raghava Ravindra Muddu, Rupasai Rangaraju, Harshad Khadilkar, Pushpak Bhattacharyya, Suman Banerjee, Amey Patil, Sudhanshu Shekhar Singh, Muthusamy Chelliah, Nikesh Garera
Case Study Domain Knowledge Reward Model Human Preference Reinforcement Learning From Human Feedback Opinion Summarization Preference Annotation

February 22, 2024

Generalizing Reward Modeling for Out-of-Distribution Preference Learning
Chen Jia
Reward Function Reward Model Policy Learning Preference Feedback Preference Learning Preference Alignment

February 15, 2024

Aligning Crowd Feedback via Distributional Preference Reward Modeling
Dexun Li, Cong Zhang, Kuicai Dong, Derrick Goh Xin Deik, Ruiming Tang, Yong Liu
Deep Reinforcement Learning Reward Model Crowd Annotation Preference Reward Preference Distribution

February 14, 2024

InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling
Yuchun Miao, Sen Zhang, Liang Ding, Rong Bao, Lefei Zhang, Dacheng Tao
Reward Model Reinforcement Learning From Human Feedback Reward Hacking Reward Overoptimization Reward Misspecification Information Theoretic Reward

February 13, 2024

GLoRe: When, Where, and How to Improve LLM Reasoning via Global and Local Refinements
Alex Havrilla, Sharath Raparthy, Christoforus Nalmpantis, Jane Dwivedi-Yu, Maksym Zhuravinskyi, Eric Hambro, Roberta Raileanu
World Event Reward Model LLM Reasoning Target Refinement Objective Refinement Approach

Reward Model

Papers

RLHF Deciphered: A Critical Analysis of Reinforcement Learning from Human Feedback for LLMs

Generalized Linear Bandits with Limited Adaptivity

Towards Understanding the Influence of Reward Margin on Preference Model Performance

ByteEdit: Boost, Comply and Accelerate Generative Image Editing

VLRM: Vision-Language Models act as Reward Models for Image Captioning

Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward

Fine-Tuning Language Models with Reward Learning on Policy

Disentangling Length from Quality in Direct Preference Optimization

Rejection Improves Reliability: Training LLMs to Refuse Unknown Questions Using RL from Knowledge Feedback

Risk and Response in Large Language Models: Evaluating Key Threat Categories

RewardBench: Evaluating Reward Models for Language Modeling

Improving Dialogue Agents by Decomposing One Global Explicit Annotation with Local Implicit Multimodal Feedback

Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision

Unfamiliar Finetuning Examples Control How Language Models Hallucinate

Reward Model Learning vs. Direct Policy Optimization: A Comparative Analysis of Learning from Human Preferences

Leveraging Domain Knowledge for Efficient Reward Modelling in RLHF: A Case-Study in E-Commerce Opinion Summarization

Generalizing Reward Modeling for Out-of-Distribution Preference Learning

Aligning Crowd Feedback via Distributional Preference Reward Modeling

InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling

GLoRe: When, Where, and How to Improve LLM Reasoning via Global and Local Refinements