Policy Learning

Policy learning, a core area of reinforcement learning, aims to develop algorithms that enable agents to learn optimal decision-making strategies from data, often without explicit reward functions. Current research emphasizes improving sample efficiency and robustness, particularly in offline settings, using techniques like generative adversarial imitation learning (GAIL), transformer-based architectures, and model-based methods that incorporate world models or causal representations to handle noisy or incomplete data. These advancements are crucial for scaling reinforcement learning to complex real-world problems, such as robotics and personalized recommendations, where online learning is impractical or unsafe. The development of more efficient and robust policy learning algorithms has significant implications for various fields, improving the performance and generalizability of AI agents in diverse applications.

Papers

October 4, 2024

Predictive Coding for Decision Transformer
Tung M. Luu, Donghoon Lee, Chang D. Yoo
Offline Reinforcement Learning Policy Learning Sparse Reward Decision Transformer Predictive Coding Goal Conditioned Reinforcement Learning

September 27, 2024

Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning
Sheikh Salman Hassan, Yu Min Park, Yan Kyaw Tun, Walid Saad, Zhu Han, Choong Seon Hong
Gene Level GNN Policy Learning Federated Reinforcement Learning Traditional Reinforcement Learning Generative Adversarial Imitation Spectrum Efficiency Wireless Network Optimization

September 26, 2024

DMC-VB: A Benchmark for Representation Learning for Control with Visual Distractors
Joseph Ortiz, Antoine Dedieu, Wolfgang Lehrach, Swaroop Guntupalli, Carter Wendelken, Ahmad Humayun, Guangyao Zhou, Sivaramakrishnan Swaminathan, Miguel Lázaro-Gredilla, Kevin Murphy
New Benchmark Representation Learning Offline Reinforcement Learning External Control Policy Learning Behavior Cloning High Quality Distractors DeepMind Control Suite Control Benchmark

September 15, 2024

A Simpler Alternative to Variational Regularized Counterfactual Risk Minimization
Hua Chang Bakker, Shashank Gupta, Harrie Oosterhuis
Policy Learning Divergence Regularization F GAN Counterfactual Metric

September 13, 2024

Curricula for Learning Robust Policies over Factored State Representations in Changing Environments
Panayiotis Panayiotou, Özgür Şimşek
Reinforcement Learning Policy Learning Environment Feature Robust Policy State Representation Learning Curriculum

September 11, 2024

Policy Filtration in RLHF to Fine-Tune LLM for Code Generation
Wei Shen, Chuheng Zhang
Reinforcement Learning Medical LLM Code Generation Proximal Policy Optimization Reward Model Policy Learning Reinforcement Learning From Human Feedback Policy Search

September 9, 2024

Forward KL Regularized Preference Optimization for Aligning Diffusion Policies
Zhao Shan, Chenyou Fan, Shuang Qiu, Jiyuan Shi, Chenjia Bai
Policy OpTimization Policy Learning Direct Preference Optimization Preference Optimization Agnostic Reinforcement Learning

September 2, 2024

MOOSS: Mask-Enhanced Temporal Contrastive Learning for Smooth State Evolution in Visual Reinforcement Learning
Jiarui Sun, M. Ugur Akcal, Wei Zhang, Girish Chowdhary
Contrastive Learning Policy Learning Visual Reinforcement Learning

August 27, 2024

Learning Robust Reward Machines from Noisy Labels
Roko Parac, Lorenzo Nodari, Leo Ardon, Daniel Furelos-Blanco, Federico Cerutti, Alessandra Russo
Reinforcement Learning Noisy Label Policy Learning Inductive Logic Programming Robust Reward

August 23, 2024

SAMBO-RL: Shifts-aware Model-based Offline Reinforcement Learning
Wang Luo, Haoran Li, Zicheng Zhang, Congying Han, Jiayu Lv, Tiande Guo
Policy OpTimization Policy Learning Model Based Offline Reinforcement Learning Reward Collapse

August 21, 2024

Offline Policy Learning via Skill-step Abstraction for Long-horizon Goal-Conditioned Tasks
Donghoon Kim, Minjong Yoo, Honguk Woo
Policy Learning Goal Conditioned Reinforcement Learning Goal Conditioned Offline Policy Learning Skill Abstraction

August 19, 2024

August 8, 2024

FORGE: Force-Guided Exploration for Robust Contact-Rich Manipulation under Uncertainty
Michael Noseworthy, Bingjie Tang, Bowen Wen, Ankur Handa, Chad Kessens, Nicholas Roy, Dieter Fox, Fabio Ramos, Yashraj Narang, Iretiayo Akinola
High Uncertainty Anticipation Policy Learning Real Robot Robust Policy Contact Rich Deep Policy

July 15, 2024

BECAUSE: Bilinear Causal Representation for Generalizable Offline Model-based Reinforcement Learning
Haohong Lin, Wenhao Ding, Jian Chen, Laixi Shi, Jiacheng Zhu, Bo Li, Ding Zhao
Model Based Reinforcement Learning Policy Learning Causal Representation Model Mismatch

July 4, 2024

July 1, 2024

Coordination Failure in Cooperative Offline MARL
Callum Rhys Tilbury, Claude Formanek, Louise Beyers, Jonathan P. Shock, Arnu Pretorius
Multi Agent Reinforcement Learning Policy Learning Action Free Offline Multi Agent Policy Coordination Problem Multi Agent Optimal Control

June 23, 2024

Bounding-Box Inference for Error-Aware Model-Based Reinforcement Learning
Erin J. Talvitie, Zilei Shao, Huiying Li, Jinghan Hu, Jacob Boerma, Rory Zhao, Xintong Wang
Reinforcement Learning Model Based Reinforcement Learning Policy Learning Efficient Planning

June 16, 2024

Improving Reward-Conditioned Policies for Multi-Armed Bandits using Normalized Weight Functions
Kai Xu, Farid Tajaddodianfar, Ben Allison
Reinforcement Learning Multi Armed Bandit Policy Gradient Policy Learning Weight Normalization Reward Conditioned

Policy Learning

Papers

Predictive Coding for Decision Transformer

Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning

DMC-VB: A Benchmark for Representation Learning for Control with Visual Distractors

A Simpler Alternative to Variational Regularized Counterfactual Risk Minimization

Curricula for Learning Robust Policies over Factored State Representations in Changing Environments

Policy Filtration in RLHF to Fine-Tune LLM for Code Generation

Forward KL Regularized Preference Optimization for Aligning Diffusion Policies

MOOSS: Mask-Enhanced Temporal Contrastive Learning for Smooth State Evolution in Visual Reinforcement Learning

Learning Robust Reward Machines from Noisy Labels

SAMBO-RL: Shifts-aware Model-based Offline Reinforcement Learning

Offline Policy Learning via Skill-step Abstraction for Long-horizon Goal-Conditioned Tasks

Enhancing Reinforcement Learning Through Guided Search

World Models Increase Autonomy in Reinforcement Learning

FORGE: Force-Guided Exploration for Robust Contact-Rich Manipulation under Uncertainty

BECAUSE: Bilinear Causal Representation for Generalizable Offline Model-based Reinforcement Learning

Collision Avoidance for Multiple UAVs in Unknown Scenarios with Causal Representation Disentanglement

Improving Sample Efficiency of Reinforcement Learning with Background Knowledge from Large Language Models

Coordination Failure in Cooperative Offline MARL

Bounding-Box Inference for Error-Aware Model-Based Reinforcement Learning

Improving Reward-Conditioned Policies for Multi-Armed Bandits using Normalized Weight Functions