Regret Bound

Regret bound analysis focuses on quantifying the performance of online learning algorithms, particularly in scenarios like multi-armed bandits and reinforcement learning, by measuring the difference between an algorithm's cumulative reward and that of an optimal strategy. Current research emphasizes developing algorithms with tighter regret bounds, often employing techniques like optimism in the face of uncertainty, Thompson sampling, and advanced exploration strategies tailored to specific problem structures (e.g., linear models, contextual bandits). These improvements have significant implications for various applications, including personalized recommendations, online advertising, and resource allocation, by enabling more efficient and effective decision-making under uncertainty.

Papers

June 24, 2024

June 20, 2024

Active Learning for Fair and Stable Online Allocations
Riddhiman Bhattacharya, Thanh Nguyen, Will Wei Sun, Mohit Tawarmalani
Active Learning Resource Allocation Regret Bound Online Resource Allocation Online Allocation Fair Resource Allocation

June 18, 2024

More Efficient Randomized Exploration for Reinforcement Learning via Approximate Sampling
Haque Ishfaq, Yixin Tan, Yu Yang, Qingfeng Lan, Jianfeng Lu, A. Rupam Mahmood, Doina Precup, Pan Xu
Reinforcement Learning Regret Bound Thompson Sampling Based Exploration Approximate Sampling

June 8, 2024

Regret Bounds for Episodic Risk-Sensitive Linear Quadratic Regulator
Wenhao Xu, Xuefeng Gao, Xuedong He
Regret Bound Risk Sensitive

June 7, 2024

Reinforcement Learning and Regret Bounds for Admission Control
Lucas Weber, Ana Bušić, Jiamin Zhu
Reinforcement Learning Markov Decision Process Reinforcement Learning Algorithm Regret Bound Low Regret Admission Control Customer Side Queue

June 3, 2024

May 31, 2024

No-Regret Learning for Fair Multi-Agent Social Welfare Optimization
Mengxiao Zhang, Ramiro Deo-Campo Vuong, Haipeng Luo
Regret Bound Sublinear Regret Multi Agent Multi Armed Bandit Regret Learning

May 30, 2024

Universal Online Convex Optimization with $1$ Projection per Round
Wenhao Yang, Yibo Wang, Peng Zhao, Lijun Zhang
Regret Bound Online Convex Optimization Convex Function Projection Bias Multi Round

May 28, 2024

Extreme Value Monte Carlo Tree Search
Masataro Asai, Stephen Wissow
Multi Armed Bandit Monte Carlo Tree Search Regret Bound Classical Planning Hybrid Reward

May 27, 2024

Non-stochastic Bandits With Evolving Observations
Yogev Bar-On, Yishay Mansour
Online Learning Regret Bound Evolving Observation Adversarial Environment

May 22, 2024

Fair Online Bilateral Trade
François Bachoc, Nicolò Cesa-Bianchi, Tommaso Cesari, Roberto Colomboni
Regret Bound Counterfactual Regret Regret Learning Bilateral Trade

May 16, 2024

Nearly Minimax Optimal Regret for Multinomial Logistic Bandit
Joongkyu Lee, Min-hwan Oh
Regret Bound Minimax Optimal Regret Multinomial Logit Logistic Bandit

May 10, 2024

Incentive-compatible Bandits: Importance Weighting No More
Julian Zimmert, Teodor V. Marinov
Regret Bound Importance Weighting Incentive Compatible

May 3, 2024

Optimistic Regret Bounds for Online Learning in Adversarial Markov Decision Processes
Sang Bin Moon, Abolfazl Hashemi
Online Learning Regret Bound Regret Analysis Adversarial Markov Decision Process

April 22, 2024

An Adaptive Approach for Infinitely Many-armed Bandits under Generalized Rotting Constraints
Jung-hun Kim, Milan Vojnovic, Se-Young Yun
Regret Bound Bias Variance Adaptive Approach Hard Inequality Constraint

March 15, 2024