Policy Learning

Policy learning, a core area of reinforcement learning, aims to develop algorithms that enable agents to learn optimal decision-making strategies from data, often without explicit reward functions. Current research emphasizes improving sample efficiency and robustness, particularly in offline settings, using techniques like generative adversarial imitation learning (GAIL), transformer-based architectures, and model-based methods that incorporate world models or causal representations to handle noisy or incomplete data. These advancements are crucial for scaling reinforcement learning to complex real-world problems, such as robotics and personalized recommendations, where online learning is impractical or unsafe. The development of more efficient and robust policy learning algorithms has significant implications for various fields, improving the performance and generalizability of AI agents in diverse applications.

Papers

May 25, 2024

Diffusion-Reward Adversarial Imitation Learning
Chun-Mao Lai, Hsiang-Chun Wang, Ping-Chun Hsieh, Yu-Chiang Frank Wang, Min-Hung Chen, Shao-Hua Sun
Diffusion Model Policy Learning Generative Training Generative Adversarial Imitation Learning

May 21, 2024

Efficient Imitation Learning with Conservative World Models
Victor Kolev, Rafael Rafailov, Kyle Hatch, Jiajun Wu, Chelsea Finn
Imitation Learning Policy Learning Adversarial Imitation Policy Sampling

May 20, 2024

Feasibility Consistent Representation Learning for Safe Reinforcement Learning
Zhepeng Cen, Yihang Yao, Zuxin Liu, Ding Zhao
Safe Reinforcement Learning Policy Learning Consistent Representation Learning Safety Learning

May 9, 2024

Optimal Baseline Corrections for Off-Policy Contextual Bandits
Shashank Gupta, Olivier Jeunen, Harrie Oosterhuis, Maarten de Rijke
Policy Learning Optimal Estimation Control Variate Unbiased Prediction Unbiased Estimator Optimal Baseline

May 6, 2024

Out-of-Distribution Adaptation in Offline RL: Counterfactual Reasoning via Causal Normalizing Flows
Minjae Cho, Jonathan P. How, Chuangchuang Sun
Offline Reinforcement Learning Policy Learning Counterfactual Reasoning Offline Policy Evaluation Causal Reinforcement Learning Graph Out of Distribution Adaptation Graphical Normalizing Flow

April 24, 2024

ViViDex: Learning Vision-based Dexterous Manipulation from Human Videos
Zerui Chen, Shizhe Chen, Etienne Arlaud, Ivan Laptev, Cordelia Schmid
Reinforcement Learning Vision Based Policy Learning Visual Policy

April 23, 2024

Hyperparameter Optimization Can Even be Harmful in Off-Policy Learning and How to Deal with It
Yuta Saito, Masahiro Nomura
Hyperparameter Optimization Policy Evaluation Policy Learning Optimal Hyperparameters Hyperparameter OPtimization

April 18, 2024

Enabling Stateful Behaviors for Diffusion-based Policy Learning
Xiao Liu, Fabian Weigend, Yifan Zhou, Heni Ben Amor
Imitation Learning Policy Learning Diffusion Policy Action Generation State Action

April 15, 2024

Inferring Behavior-Specific Context Improves Zero-Shot Generalization in Reinforcement Learning
Tidiane Camaret Ndir, André Biedenkapp, Noor Awad
Reinforcement Learning Zero Shot Context Learning Policy Learning Contextual Representation Behavior Style

April 12, 2024

Hindsight PRIORs for Reward Learning from Human Preferences
Mudit Verma, Katherine Metcalf
Reinforcement Learning Policy Learning Human Preference Reward Learning Hindsight Instruction Reward Engineering

March 31, 2024

Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration
Yibo Wang, Jiang Zhao
Deep Reinforcement Learning Policy Learning Sparse Reward Sample Efficient Intrinsic Motivation

March 22, 2024

Planning with a Learned Policy Basis to Optimally Solve Complex Tasks
Guillermo Infante, David Kuric, Anders Jonsson, Vicenç Gómez, Herke van Hoof
Reinforcement Learning Task Planning Policy Learning Sequential Decision Making Problem Complex Task Stochastic Environment Global Optimality Non Markovian Reward

March 21, 2024

Constrained Reinforcement Learning with Smoothed Log Barrier Function
Baohe Zhang, Yuan Zhang, Lilli Frison, Thomas Brox, Joschka Bödecker
Reinforcement Learning Policy Learning Reward Shaping Constrained Reinforcement Learning Soft Actor Critic Control Constraint Logarithmic Barrier

March 19, 2024

End-to-End Neuro-Symbolic Reinforcement Learning with Textual Explanations
Lirui Luo, Guoxi Zhang, Hongming Xu, Yaodong Yang, Cong Fang, Qing Li
Reinforcement Learning End to End Neuro Symbolic Policy Learning State Representation Textual Explanation Symbolic Policy

March 18, 2024

Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data
Danyang Wang, Chengchun Shi, Shikai Luo, Will Wei Sun
Offline Reinforcement Learning Policy Learning Offline Data Observed Mediator Action Distribution Optimistic Learning Policy Inference

March 11, 2024

RLingua: Improving Reinforcement Learning Sample Efficiency in Robotic Manipulations With Large Language Models
Liangliang Chen, Yutian Lei, Shiyu Jin, Ying Zhang, Liangjun Zhang
Reinforcement Learning LLM Based Policy Learning Robot Manipulation Sample Efficient Reinforcement Learning Real Robot Experiment

March 8, 2024

Multi-Agent Reinforcement Learning with a Hierarchy of Reward Machines
Xuejing Zheng, Chao Yu
Multi Agent Reinforcement Learning Policy Learning Part Whole Hierarchy Cooperative Multi Agent Reinforcement Learning Reward Machine

March 7, 2024

Vlearn: Off-Policy Learning with Efficient State-Value Function Estimation
Fabian Otto, Philipp Becker, Ngo Anh Vien, Gerhard Neumann
Policy Learning Policy Reinforcement Learning Policy Deep Reinforcement Learning State Action Value Deep Function

March 1, 2024

Robust Policy Learning via Offline Skill Diffusion
Woo Kyung Kim, Minjong Yoo, Honguk Woo
Policy Learning Robust Policy Skill Representation Skill Based Reinforcement Learning Skill Policy Offline Skill

February 22, 2024

Generalizing Reward Modeling for Out-of-Distribution Preference Learning
Chen Jia
Reward Function Reward Model Policy Learning Preference Feedback Preference Learning Preference Alignment