Bandit Problem

The multi-armed bandit problem is a sequential decision-making framework where an agent aims to maximize cumulative reward by strategically selecting actions (arms) with uncertain payoffs. Current research emphasizes efficient algorithms for various settings, including contextual bandits (using neural networks to model reward functions), batched bandits (optimizing for limited feedback), and those with non-stationary rewards or adversarial environments. These advancements are driving improvements in online recommendation systems, clinical trials, and other applications requiring adaptive learning under uncertainty, with a strong focus on minimizing regret (the difference between optimal and achieved reward).

Papers

September 7, 2022

Dual Instrumental Method for Confounded Kernelized Bandits
Xueping Gong, Jiheng Zhang
Instrumental Variable Bandit Problem Contextual Bandit Problem Kernel Bandit Dual Approach Regret Optimal Algorithm

July 26, 2022

Neural Design for Genetic Perturbation Experiments
Aldo Pacchiano, Drausin Wulsin, Robert A. Barton, Luis Voloch
Neural Architecture Experimental Design Bandit Problem Optimal Arm Genetic Perturbation

July 22, 2022

High dimensional stochastic linear contextual bandit with missing covariates
Byoungwook Jang, Julia Nepper, Marc Chevrette, Jo Handelsman, Alfred O. Hero
Contextual Bandit Linear Bandit Relevant Covariates Bandit Problem Sequential Selection

July 13, 2022

Graph Neural Network Bandits
Parnian Kassraie, Andreas Krause, Ilija Bogunovic
Graph Structured Data Sublinear Regret Graph Domain Bandit Problem Graph Neural Tangent Kernel

July 12, 2022

Contextual Bandits with Smooth Regret: Efficient Learning in Continuous Action Spaces
Yinglun Zhu, Paul Mineiro
Action Space Contextual Bandit Efficient Learning Bandit Problem Contextual Bandit Algorithm Regret Rate

June 28, 2022

Dynamic Memory for Interpretable Sequential Optimisation
Srivas Chennu, Andrew Maher, Jamie Martin, Subash Prabanantham
Reinforcement Learning Learning Agent Bandit Problem Dynamic Memory Adaptive Bayesian Interpretable Optimization

June 7, 2022

The Survival Bandit Problem
Charles Riou, Junya Honda, Masashi Sugiyama
Multi Armed Bandit Pareto Optimal Bandit Problem Cumulative Reward Achievable Regret

April 24, 2022

Complete Policy Regret Bounds for Tallying Bandits
Dhruv Malik, Yuanzhi Li, Aarti Singh
Bandit Algorithm Regret Guarantee Bandit Problem

March 21, 2022

Efficient Algorithms for Extreme Bandits
Dorian Baudry, Yoan Russac, Emilie Kaufmann
Multi Armed Bandit Quantile Regression Efficient Algorithm Non Asymptotic Bandit Problem Optimal Bandit

March 15, 2022

Regenerative Particle Thompson Sampling
Zeyu Zhou, Bruce Hajek, Nakjung Choi, Anwar Walid
Thompson Sampling Bandit Problem

February 25, 2022

Meta-Learning for Simple Regret Minimization
Mohammadjavad Azizi, Branislav Kveton, Mohammad Ghavamzadeh, Sumeet Katariya
Regret Minimization Bandit Problem Achievable Regret Bandit Task

February 14, 2022

The Impact of Batch Learning in Stochastic Linear Bandits
Danil Provodin, Pratik Gajane, Mykola Pechenizkiy, Maurits Kaptein
Global Impact Linear Bandit Bandit Problem Batch Learning

January 31, 2022

Optimal Regret Is Achievable with Bounded Approximate Inference Error: An Enhanced Bayesian Upper Confidence Bound Framework
Ziyi Huang, Henry Lam, Amirhossein Meisami, Haofeng Zhang
Multi Armed Bandit Confidence Bound Stochastic Bandit Approximate Inference Bandit Problem Order Optimal Regret

January 25, 2022

Augmented RBMLE-UCB Approach for Adaptive Control of Linear Quadratic Systems
Akshay Mete, Rahul Singh, P. R. Kumar
Stochastic Dynamical System Adaptive Control Bandit Problem Quadratic System

January 17, 2022

A New Look at Dynamic Regret for Non-Stationary Stochastic Bandits
Yasin Abbasi-Yadkori, Andras Gyorgy, Nevena Lazic
Multi Armed Bandit Non Stationary Bandit Problem Optimal Arm

November 3, 2021

The Impact of Batch Learning in Stochastic Bandits
Danil Provodin, Pratik Gajane, Mykola Pechenizkiy, Maurits Kaptein
Global Impact Stochastic Bandit Bandit Problem Batch Learning Optimal Batch