Reward Function

Reward functions, crucial for guiding reinforcement learning agents towards desired behaviors, are the focus of intense research. Current efforts center on automatically learning reward functions from diverse sources like human preferences, demonstrations (including imperfect ones), and natural language descriptions, often employing techniques like inverse reinforcement learning, large language models, and Bayesian optimization within various architectures including transformers and generative models. This research is vital for improving the efficiency and robustness of reinforcement learning, enabling its application to complex real-world problems where manually designing reward functions is impractical or impossible. The ultimate goal is to create more adaptable and human-aligned AI systems.

250papers

Papers - Page 4

December 18, 2024

December 17, 2024

ClustEm4Ano: Clustering Text Embeddings of Nominal Textual Attributes for Microdata Anonymization
Textual Feature Consistent Anonymization Effect Text Embeddings Reward Function Anonymization Technique

December 14, 2024

Adaptive Reward Design for Reinforcement Learning
Reinforcement Learning New Task Complex Robotic System Adaptive Incentive Reward Function Reinforcement Learning Algorithm Sparse Reward

December 11, 2024

IRL for Restless Multi-Armed Bandits with Applications in Maternal and Child Health
Multi Armed Bandit Pediatric Patient Inverse Reinforcement Learning Restless Multi Armed Bandit Reward Function Dynamic Restless

December 9, 2024

Can foundation models actively gather information in interactive environments to test hypotheses?
Scientific Hypothesis Environment Feature Reward Function Embodied Environment Task Specific Reward Foundation Model Evaluation Task Full Information

December 7, 2024

Video2Reward: Generating Reward Function from Videos for Legged Robot Behavior Learning
Behaviour Learning Gameplay Video Reward Function Reinforcement Learning Legged Robot

December 6, 2024

Maximizing Alignment with Minimal Feedback: Efficiently Learning Rewards for Visuomotor Robot Policy Alignment
Reward Function Reward Report Visuomotor Policy Optimal Alignment Partial Feedback

November 20, 2024

SuPLE: Robot Learning with Lyapunov Rewards
Robot Learning Lyapunov Exponent Robot Action Reward Function Robot Person

November 15, 2024

Towards Sample-Efficiency and Generalization of Transfer and Inverse Reinforcement Learning: A Comprehensive Literature Review
Sample Efficiency Inverse Task Reinforcement Learning Formality Transfer Inverse Reinforcement Learning Reward Function Sequential Decision Making Problem Strong Generalization

November 7, 2024

Navigating Trade-offs: Policy Summarization for Multi-Objective Reinforcement Learning
Multiple Objective Multi Objective Reinforcement Learning Reward Function Multi Objective Objective Space Reinforcement Learning

November 4, 2024

November 2, 2024

Guiding Multi-agent Multi-task Reinforcement Learning by a Hierarchical Framework with Logical Reward Shaping
Reward Shaping Reward Function Multi Agent Reinforcement Learning New Framework Reinforcement Learning Part Whole Hierarchy Multi Agent

October 26, 2024

Beyond Simple Sum of Delayed Rewards: Non-Markovian Reward Modeling for Reinforcement Learning
Reward Delay Reward Function Reinforcement Learning Partial Sum Markovian Reward Non Markovian Reward

October 21, 2024

In-Trajectory Inverse Reinforcement Learning: Learn Incrementally Before An Ongoing Trajectory Terminates
State Action Pair Future Trajectory Sub Linear Regret Inverse Reinforcement Learning Reward Function

Reward Function

Papers - Page 4

Learning Quadrupedal Robot Locomotion for Narrow Pipe Inspection

Efficient Language-instructed Skill Acquisition via Reward-Policy Co-Evolution

ClustEm4Ano: Clustering Text Embeddings of Nominal Textual Attributes for Microdata Anonymization

Adaptive Reward Design for Reinforcement Learning

IRL for Restless Multi-Armed Bandits with Applications in Maternal and Child Health

Can foundation models actively gather information in interactive environments to test hypotheses?

Video2Reward: Generating Reward Function from Videos for Legged Robot Behavior Learning

Maximizing Alignment with Minimal Feedback: Efficiently Learning Rewards for Visuomotor Robot Policy Alignment

SuPLE: Robot Learning with Lyapunov Rewards

Towards Sample-Efficiency and Generalization of Transfer and Inverse Reinforcement Learning: A Comprehensive Literature Review

Navigating Trade-offs: Policy Summarization for Multi-Objective Reinforcement Learning

Dr. SoW: Density Ratio of Strong-over-weak LLMs for Reducing the Cost of Human Annotation in Preference Tuning

Show, Don't Tell: Learning Reward Machines from Demonstrations for Reinforcement Learning-Based Cardiac Pacemaker Synthesis

Guiding Multi-agent Multi-task Reinforcement Learning by a Hierarchical Framework with Logical Reward Shaping

Beyond Simple Sum of Delayed Rewards: Non-Markovian Reward Modeling for Reinforcement Learning

Navigating Noisy Feedback: Enhancing Reinforcement Learning with Error-Prone Language Models

ICPL: Few-shot In-context Preference Learning via LLMs

Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards

Curriculum Reinforcement Learning for Complex Reward Functions

In-Trajectory Inverse Reinforcement Learning: Learn Incrementally Before An Ongoing Trajectory Terminates