the latest in aiBeta

Policy Learning Method

Policy learning methods aim to develop algorithms that learn optimal decision-making strategies from data, often in complex environments with multiple objectives or constraints. Current research emphasizes improving sample efficiency and generalizability, focusing on techniques like matrix completion bandits, adaptive policy gradients, and pessimistic policy learning, often incorporating decision trees or neural networks for policy representation. These advancements are crucial for applications ranging from personalized recommendations and robotics to healthcare, enabling more effective and data-efficient decision-making in diverse real-world scenarios.

16papers

Papers

March 27, 2025

Towards Fully Automated Decision-Making Systems for Greenhouse Control: Challenges and Opportunities
Yongshuai Liu, Taeyeong Choi, Xin Liu
Davis
Emerging Opportunity Automated Decision Making Policy Learning Method Agricultural Robotics Technical Challenge Control Policy

January 14, 2025

Optimal Policy Adaptation under Covariate Shift
Xueqing Liu, Qinwei Yang, Zhaoqing Tian, Ruocheng Guo, Peng Wu
Covariate Shift Policy Learning Method Transfer Learning Optimal Policy

December 14, 2024

Sample-efficient Unsupervised Policy Cloning from Ensemble Self-supervised Labeled Videos
Xin Liu, Yaran Chen
Self Supervised Task Gameplay Video Unsupervised Version Diverse Ensemble Policy Learning Method

May 3, 2024

Multi-Objective Recommendation via Multivariate Policy Learning
Olivier Jeunen, Jatin Mandav, Ivan Potapov, Nakul Agarwal, Sourabh Vaid, Wenzhe Shi, Aleksei Ustimenko
Multi Objective Weighted Sum Scalarization Multi Task Policy Reward Signal Scalable Algorithm Policy Learning Method Real World

April 26, 2024

Online Policy Learning and Inference by Matrix Completion
Congyuan Duan, Jingyang Li, Dong Xia
Matrix Completion Epsilon Greedy Online Gradient Descent Scientific Inference Policy Inference Policy Learning Method

March 15, 2024

Online Policy Learning from Offline Preferences
Guoxi Zhang, Han Bao, Hisashi Kashima
Reward Function Offline Preference Policy Learning Method Preference Based Reinforcement Learning

January 3, 2024

On Time-Indexing as Inductive Bias in Deep RL for Sequential Manipulation Tasks
M. Nomaan Qureshi, Ben Eisner, David Held
Inductive Bias Skill Learning Policy Architecture Deep RL Policy Learning Method Sequential Manipulation Manipulation Task Deep Reinforcement Learning

November 23, 2023

Fast Policy Learning for Linear Quadratic Control with Entropy Regularization
Xin Guo, Xinyu Li, Renyuan Xu
Optimal Policy Policy Learning Method Entropy Regularization Policy Iteration Policy Gradient

May 30, 2023

NetHack is Hard to Hack
Ulyana Piterbarg, Lerrel Pinto, Rob Fergus
Neural Agent Policy Learning Method Reinforcement Learning NetHack Learning Deep Policy

May 24, 2023

Adaptive Policy Learning to Additional Tasks
Wenjian Hao, Zehui Lu, Zihao Liang, Tianyu Zhou, Shaoshuai Mou
Deterministic Policy Gradient New Task Policy Gradient Policy Learning Method

April 10, 2023

For Pre-Trained Vision Models in Motor Control, Not All Policy Learning Methods are Created Equal
Yingdong Hu, Renhao Wang, Li Erran Li, Yang Gao
Motion Skill Policy Learning Method Pre Trained Pre Trained Model Reinforcement Learning Downstream Policy Learning

December 19, 2022

Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality
Ying Jin, Zhimei Ren, Zhuoran Yang, Zhaoran Wang
Policy Learning Method Soft Inequality Efficient Policy Learning Individualized Decision Optimal Policy Policy Learning

September 18, 2022

Offline Reinforcement Learning with Instrumental Variables in Confounded Markov Decision Processes
Zuyue Fu, Zhengling Qi, Zhaoran Wang, Zhuoran Yang, Yanxun Xu, Michael R. Kosorok
Markov Decision Process Instrumental Variable Offline Reinforcement Learning Policy Learning Method Policy Learning

August 9, 2022

Generalized Reinforcement Learning: Experience Particles, Action Operator, Reinforcement Field, Memory Association, and Decision Concepts
Po-Hsiang Chiu, Manfred Huber
Reinforcement Learning Policy Learning Method Decision Theory Associative Memory Action Model

July 20, 2022

Resolving Copycat Problems in Visual Imitation Learning via Residual Action Prediction
Chia-Chi Chuang, Donglin Yang, Chuan Wen, Yang Gao
Visual Imitation Learning Imitation Learning Policy Learning Method Feature Imitation Expert Demonstration High Dimensional Image Residual Reinforcement Learning

May 17, 2022

Self-Supervised Learning of Multi-Object Keypoints for Robotic Manipulation
Jan Ole von Hartz, Eugenio Chisari, Tim Welschehold, Abhinav Valada
Sample Efficient Policy Manipulation Task Self Supervised Learning Robotic Manipulation Policy Learning Method Downstream Policy Learning Arbitrary Keypoints

March 15, 2022

POETREE: Interpretable Policy Learning with Adaptive Decision Trees
Alizée Pace, Alex J. Chan, Mihaela van der Schaar
Decision Tree Policy Learning Method Clinical Decision Support System Decision Tree Policy

December 2, 2021

Generalizing Off-Policy Learning under Sample Selection Bias
Tobias Hatt, Daniel Tschernutter, Stefan Feuerriegel
Policy Learning Method Selection Bias Stronger Generalizability Decision Policy

November 8, 2021

Safe Data Collection for Offline and Online Policy Learning
Ruihao Zhu, Branislav Kveton
Action Free Offline Offline Policy Learning Data Collection Policy Learning Policy Learning Method Optimal Regret