the latest in aiBeta

Reward Value

Reward value, a crucial element in reinforcement learning, aims to quantify the desirability of different states or actions, guiding agents towards optimal behavior. Current research focuses on improving reward model accuracy and efficiency, exploring methods like uncertainty-aware models and zeroth-order policy gradients to bypass the limitations of traditional reward inference. These advancements are vital for aligning large language models with human preferences and enabling efficient reinforcement learning in complex, real-world scenarios where reward evaluation is costly. The development of robust and reliable reward models is key to advancing the field and unlocking the full potential of reinforcement learning across diverse applications.

8papers

Papers

April 21, 2025

Integrating Symbolic Execution into the Fine-Tuning of Code-Generating LLMs
Marina Sakharova, Abhinav Anand, Mira Mezini
TU Darmstadt
Fine Tuning Symbolic Execution Code Generation Reward Value Large Language Model Reward Model

March 18, 2025

Generating Causal Explanations of Vehicular Agent Behavioural Interactions with Learnt Reward Profiles
Rhys Howard, Nick Hawes, Lars Kunze
Oxford Robotics Institute●University of Oxford●Bristol Robotics Laboratory●UWE Bristol
Driving Datasets Reward Function Interaction Strategy Reward Value Agent Planning Explanation Generation Autonomous Vehicle

March 1, 2025

Sentence-level Reward Model can Generalize Better for Aligning LLM from Human Preference
Wenjie Qiu, Yi-Chen Li, Xuqin Zhang, Tianyi Zhang, Yihang Zhang, Zongzhang Zhang, Yang Yu
Nanjing University●Nanjing University●Polixir Technologies
Reward Model LLM Alignment Human Preference Reward Value Fine Grained Language Reward

October 18, 2024

How to Evaluate Reward Models for RLHF
Evan Frick, Tianle Li, Connor Chen, Wei-Lin Chiang, Anastasios N. Angelopoulos, Jiantao Jiao, Banghua Zhu, Joseph E. Gonzalez, Ion Stoica
Reward Value Reward Model RLHF V

October 1, 2024

Uncertainty-aware Reward Model: Teaching Reward Models to Know What is Unknown
Xingzhou Lou, Dong Yan, Wei Shen, Yuzi Yan, Jian Xie, Junge Zhang
Reward Model Reward Ambiguity Reward Value Reward Prediction

September 25, 2024

Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inference
Qining Zhang, Lei Ying
Direct Preference Optimization Reward Value Reward Inference Human Feedback Policy Gradient Reinforcement Learning

March 20, 2024

RewardBench: Evaluating Reward Models for Language Modeling
Nathan Lambert, Valentina Pyatkin, Jacob Morrison, LJ Miranda, Bill Yuchen Lin, Khyathi Chandu, Nouha Dziri, Sachin Kumar, Tom Zick, Yejin Choi+2
Reward Value Reward Model Reward Model Training Implicit Reward

February 25, 2024

Don't Forget Your Reward Values: Language Model Alignment via Value-based Calibration
Xin Mao, Feng-Lin Li, Huimin Xu, Wei Zhang, Anh Tuan Luu
Language Model Alignment Human Feedback Proximal Policy Optimization Reward Value Reinforcement Learning

October 23, 2023

Policy Gradient with Kernel Quadrature
Satoshi Hayakawa, Tetsuro Morimura
Reward Value Gaussian Process Kernel Quadrature Reinforcement Learning Task Policy Gradient

September 26, 2023

STARC: A General Framework For Quantifying Differences Between Reward Functions
Joar Skalse, Lucy Farnik, Sumeet Ramesh Motwani, Erik Jenner, Adam Gleave, Alessandro Abate
Reward Learning Unraveling Learning Difference Reward Function Reinforcement Learning Reward Value General Framework

May 17, 2023

A proof of imitation of Wasserstein inverse reinforcement learning for multi-objective optimization
Akira Kitaoka, Riki Eto
Partial Proof Feature Imitation Iteration Head Reward Value Multi Objective Optimization Optimal Solution

November 23, 2022

Actively Learning Costly Reward Functions for Reinforcement Learning
André Eberhard, Houssam Metni, Georg Fahland, Alexander Stroh, Pascal Friederich
Reward Value Deep Reinforcement Learning Real World Optimization Problem Reinforcement Learning Reward Function