Multi Objective Reward

Multi-objective reward in reinforcement learning addresses the challenge of optimizing multiple, potentially conflicting, goals simultaneously. Current research focuses on developing reward functions that effectively balance these objectives, often employing deep reinforcement learning architectures like hierarchical models and graph neural networks, along with techniques such as model averaging and multi-objective reward exponentials to improve performance and mitigate issues like reward sparsity and the "alignment tax" in RLHF. This work is crucial for advancing the capabilities of AI systems in complex environments, enabling more nuanced control over agent behavior and improved alignment with human preferences in applications ranging from robotics to large language models.

Papers

December 12, 2024

Radiology Report Generation via Multi-objective Preference Optimization
Ting Xiao, Lei Shi, Peng Liu, Zhe Wang, Chenjia Bai
Radiology Report Generation Report Generation Multi Objective Reward

June 25, 2024

Joint Admission Control and Resource Allocation of Virtual Network Embedding via Hierarchical Deep Reinforcement Learning
Tianfu Wang, Li Shen, Qilin Fan, Tong Xu, Tongliang Liu, Hui Xiong
Proximal Policy Optimization Resource Allocation Virtual Network REinforcement Learning Network Virtualization Admission Control Multi Objective Reward

June 24, 2024

WARP: On the Benefits of Weight Averaged Rewarded Policies
Alexandre Ramé, Johan Ferret, Nino Vieillard, Robert Dadashi, Léonard Hussenot, Pierre-Louis Cedoz, Pier Giuseppe Sessa, Sertan Girgin, Arthur Douillard, Olivier Bachem
Reinforcement Learning Complementary Benefit Reward Maximization Multi Objective Reward

June 18, 2024

Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts
Haoxiang Wang, Wei Xiong, Tengyang Xie, Han Zhao, Tong Zhang
Interpretable Way Multi Objective Reward

March 11, 2024

Tactical Decision Making for Autonomous Trucks by Deep Reinforcement Learning with Total Cost of Operation Based Reward
Deepthi Pathare, Leo Laine, Morteza Haghir Chehreghani
Deep Reinforcement Learning Hidden CoST Adaptive Cruise Control Multi Objective Reward Autonomous Truck

February 28, 2024

Arithmetic Control of LLMs for Diverse User Preferences: Directional Preference Alignment with Multi-Objective Rewards
Haoxiang Wang, Yong Lin, Wei Xiong, Rui Yang, Shizhe Diao, Shuang Qiu, Han Zhao, Tong Zhang
Large Language Model Direct Preference Optimization Preference Alignment Multi Objective Reward Diverse User

December 14, 2023

Promptable Behaviors: Personalizing Multi-Objective Rewards from Human Preferences
Minyoung Hwang, Luca Weihs, Chanwoo Park, Kimin Lee, Aniruddha Kembhavi, Kiana Ehsani
Preference Feedback Human Preference Multi Objective Reinforcement Learning Robot Behavior Object Goal Navigation Multi Objective Reward

September 29, 2023

Balancing Both Behavioral Quality and Diversity in Unsupervised Skill Discovery
Xin Liu, Yaran Chen, Dongbin Zhao
Diversity Awareness Skill Discovery Diversity Enhancement Multi Objective Reward Reward Aware

September 12, 2023

Mitigating the Alignment Tax of RLHF
Yong Lin, Hangyu Lin, Wei Xiong, Shizhe Diao, Jianmeng Liu, Jipeng Zhang, Rui Pan, Haoxiang Wang, Wenbin Hu, Hanning Zhang, Hanze Dong, Renjie Pi, Han Zhao, Nan Jiang, Heng Ji, Yuan Yao, Tong Zhang
Reinforcement Learning Reinforcement Learning From Human Feedback Model Averaging Multi Objective Reward

August 8, 2022

Improving performance in multi-objective decision-making in Bottles environments with soft maximin approaches
Benjamin J Smith, Robert Klassert, Roland Pihlakas
System Performance Multi Objective Multiple Objective New Environment Risk Aversion Multi Objective Reward

Multi Objective Reward

Papers

Radiology Report Generation via Multi-objective Preference Optimization

Joint Admission Control and Resource Allocation of Virtual Network Embedding via Hierarchical Deep Reinforcement Learning

WARP: On the Benefits of Weight Averaged Rewarded Policies

Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts

Tactical Decision Making for Autonomous Trucks by Deep Reinforcement Learning with Total Cost of Operation Based Reward

Arithmetic Control of LLMs for Diverse User Preferences: Directional Preference Alignment with Multi-Objective Rewards

Promptable Behaviors: Personalizing Multi-Objective Rewards from Human Preferences

Balancing Both Behavioral Quality and Diversity in Unsupervised Skill Discovery

Mitigating the Alignment Tax of RLHF

Improving performance in multi-objective decision-making in Bottles environments with soft maximin approaches