Offline Contextual Bandit

Offline contextual bandits address the challenge of learning optimal decision-making policies from pre-collected data, without the ability to actively explore. Current research focuses on developing robust algorithms that handle limited data, confounding variables, and model misspecification, often employing techniques like pessimism, confidence bounds, and convex optimization within linear or neural network models. This field is significant because it enables effective policy learning in scenarios where online exploration is infeasible or costly, with applications ranging from personalized recommendations to resource allocation in complex systems like wireless networks.

Papers

May 27, 2024

Leveraging Offline Data in Linear Latent Bandits
Chinmaya Kausik, Kevin Tan, Ambuj Tewari
Offline Data Offline Contextual Bandit Latent Bandit

February 24, 2024

Is Offline Decision Making Possible with Only Few Samples? Reliable Decisions in Data-Starved Bandits via Trust Region Enhancement
Ruiqi Zhang, Yuexiang Zhai, Andrea Zanette
Reinforcement Learning Multi Armed Bandit Trust Region Stochastic Policy Offline Contextual Bandit

September 21, 2023

A Convex Framework for Confounding Robust Inference
Kei Ishikawa, Niao He, Takafumi Kanamori
Empirical Risk Minimization Robust Policy Convex Function Convex Program Robust Inference Offline Contextual Bandit Truncated M Estimator

July 24, 2023

Provable Benefits of Policy Learning from Human Preferences in Contextual Bandit Problems
Xiang Ji, Huazheng Wang, Minshuo Chen, Tuo Zhao, Mengdi Wang
Human Feedback Human Preference Contextual Bandit Problem Provable Benefit Offline Contextual Bandit Preference Understanding

June 2, 2023

Bayesian Regret Minimization in Offline Bandits
Mohammad Ghavamzadeh, Marek Petrik, Guy Tennenholtz
Regret Minimization Upper Bound Bayesian Regret Offline Contextual Bandit Conic Optimization

March 20, 2023

A Unified Framework of Policy Learning for Contextual Bandit with Confounding Bias and Missing Observations
Siyu Chen, Yitan Wang, Zhaoran Wang, Zhuoran Yang
Optimal Policy Policy Learning Unobserved Confounders Partial Observation Confounding Bias Offline Contextual Bandit

February 26, 2023

Kernel Conditional Moment Constraints for Confounding Robust Inference
Kei Ishikawa, Niao He
Unobserved Confounders Robust Inference Conservative Value Estimation Offline Contextual Bandit Marginal Sensitivity Model

November 29, 2022

PAC-Bayes Bounds for Bandit Problems: A Survey and Experimental Comparison
Hamish Flynn, David Reeb, Melih Kandemir, Jan Peters
Timely Survey PAC Bayesian Bandit Problem PAC Bayes Bound Experimental Comparison Offline Contextual Bandit

October 24, 2022

May 26, 2022

DevFormer: A Symmetric Transformer for Context-Aware Device Placement
Haeyeon Kim, Minsu Kim, Federico Berto, Joungho Kim, Jinkyoo Park
Design Optimization Offline Contextual Bandit Hardware Design Optimization Device Placement

May 21, 2022

Pessimism for Offline Linear Contextual Bandits using $\ell_p$ Confidence Sets
Gene Li, Cong Ma, Nathan Srebro
Linear Contextual Bandit \Ell_p$ Norm Confidence Set Offline Contextual Bandit Optimistic Learning

November 27, 2021

Offline Neural Contextual Bandits: Pessimism, Optimization and Generalization
Thanh Nguyen-Tang, Sunil Gupta, A. Tuan Nguyen, Svetha Venkatesh
Strong Generalization Optimization Purpose Stochastic Gradient Descent Policy OpTimization Offline Policy Learning Offline Contextual Bandit

November 11, 2021

Offline Contextual Bandits for Wireless Network Optimization
Miguel Suau, Alexandros Agapitos, David Lynch, Derek Farrell, Mingqi Zhou, Aleksandar Milenovic
Artificial Intelligence Real World Offline Learning Offline Contextual Bandit Cellular Traffic Wireless Network Optimization