the latest in aiBeta

Many Arm

Many-armed bandit problems address the challenge of sequentially selecting the best option (arm) from a large set, maximizing cumulative reward while minimizing exploration costs. Current research focuses on refining algorithms like UCB (Upper Confidence Bound) and developing novel approaches such as regularized and clustered assignment forests, particularly for scenarios with similar arms or resource sharing among multiple agents. These advancements are crucial for optimizing personalized treatments, improving recommender systems, and accelerating cold-start learning in applications like online advertising and product recommendations, where the number of options is vast and constantly evolving.

5papers

Papers

January 24, 2025

Graph Feedback Bandits on Similar Arms: With and Without Graph Structures
Han Qi, Fei Guo, Li Zhu, Qiaosheng Zhang, Xuelong Li
Simple Structure Many Arm UCB Algorithm Multi Armed Bandit Graph Drawing Free Regret Feedback Network Graph Bandit

May 18, 2024

Graph Feedback Bandits with Similar Arms
Han Qi, Guo Fei, Li Zhu
Recommendation Problem Graph Bandit Feedback Graph Many Arm Multi Armed Bandit UCB Algorithm Free Regret

November 1, 2023

Personalized Assignment to One of Many Treatment Arms via Regularized and Clustered Joint Assignment Forests
Rahul Ladhania, Jann Spiess, Lyle Ungar, Wenbo Wu
Heterogeneous Treatment Effect Many Arm Treatment Assignment Multi Type Galton Watson Forest

May 30, 2023

Competing for Shareable Arms in Multi-Player Multi-Armed Bandits
Renzhe Xu, Haotian Wang, Xingxuan Zhang, Bo Li, Peng Cui
Many Arm Multi Player Multi Armed Bandit Selfish Agent Strategic Agent Nash Equilibrium

October 1, 2022

Speed Up the Cold-Start Learning in Two-Sided Bandits with Many Arms
Mohsen Bayati, Junyu Cao, Wanning Chen
Speed Effect Multi Armed Bandit Multi Arm Bandit Many Arm Start Active Learning Online Experiment Randomized Experiment

March 29, 2022

Near-optimality for infinite-horizon restless bandits with many arms
Xiangyu Zhang, Peter I. Frazier
Near Optimality Restless Bandit Optimal Policy Many Arm Optimality Gap