Bandit Policy

Bandit policies are algorithms designed to optimize sequential decision-making under uncertainty, balancing exploration of options with exploitation of known rewards. Current research focuses on improving efficiency and robustness in various settings, including contextual bandits (where decisions depend on observed information), partially observable contexts, and high-dimensional action spaces like those found in slate recommendation systems. Prominent approaches include Thompson sampling, inverse contextual bandit methods, and algorithms leveraging neural networks or Gaussian processes to model reward functions. These advancements have significant implications for applications such as recommender systems, online advertising, and resource allocation, offering improved performance and fairness in dynamic environments.

Papers

March 24, 2024

IBCB: Efficient Inverse Batched Contextual Bandit for Behavioral Evolution History
Yi Xu, Weiran Shen, Xiao Zhang, Jun Xu
Contextual Bandit Cognitive Evolution Bandit Policy Inverse UQ

February 15, 2024

Thompson Sampling in Partially Observable Contextual Bandits
Hongju Park, Mohamad Kazem Shirani Faradonbeh
Contextual Bandit Regret Bound Thompson Sampling Contextual Information Bandit Policy Context Observation

February 3, 2024

Off-Policy Evaluation of Slate Bandit Policies via Optimizing Abstraction
Haruka Kiyohara, Masahiro Nomura, Yuta Saito
Contextual Bandit Policy Evaluation Cognitive Abstraction Stochastic Reward Inverse Propensity Bandit Policy

April 11, 2023

BanditQ: Fair Bandits with Guaranteed Rewards
Abhishek Sinha
Multi Armed Bandit Optimal Regret Bandit Feedback Reward Report Adversarial Bandit Bandit Policy

January 31, 2023

Improved Algorithms for Multi-period Multi-class Packing Problems with Bandit Feedback
Wonyoung Kim, Garud Iyengar, Assaf Zeevi
Contextual Bandit Bandit Feedback Improved Algorithm Consumption Data Bandit Policy

November 5, 2021

Empirical analysis of representation learning and exploration in neural kernel bandits
Michal Lisicki, Arash Afkanpour, Graham W. Taylor
Representation Learning Environment Exploration Bayesian Neural Network Bandit Algorithm Empirical Analysis Stochastic Reward Kernel Bandit Neural Bandit Bandit Policy