Learning Rate

Learning rate, a crucial hyperparameter in training neural networks, dictates the step size during optimization. Current research focuses on developing adaptive learning rate schedules, such as warmup-stable-decay and learning rate path switching, to improve training efficiency and generalization, particularly for large language models and other deep learning architectures. These advancements aim to address challenges like finding optimal learning rates across varying model sizes, datasets, and training durations, ultimately leading to faster convergence and better model performance. The impact extends to various applications, from natural language processing and computer vision to scientific computing and reinforcement learning.

Papers

June 22, 2023

Accelerated Training via Incrementally Growing Neural Networks using Variance Transfer and Learning Rate Adaptation
Xin Yuan, Pedro Savarese, Michael Maire
Neural Network Learning Rate Faster Training Local Optimization Incremental Model Gradient Scaling

June 11, 2023

Parameter-free version of Adaptive Gradient Methods for Strongly-Convex Functions
Deepak Gouda, Hassan Naveed, Salil Kamath
Learning Rate Regret Bound Convex Function Adaptive Gradient Method Strongly Convex Parameter Free General Algorithm

June 9, 2023

Prodigy: An Expeditiously Adaptive Parameter-Free Learner
Konstantin Mishchenko, Aaron Defazio
Adaptation Concern Learning Rate Online Linear Adam V2 Adaptation Method Learning Rate Free

June 1, 2023

May 31, 2023

Mechanic: A Learning Rate Tuner
Ashok Cutkosky, Aaron Defazio, Harsh Mehta
Learning Rate Online Convex Optimization Deep Learning Task Mechanical Engineering Base Algorithm

May 26, 2023

Stability-penalty-adaptive follow-the-regularized-leader: Sparsity, game-dependency, and best-of-both-worlds
Taira Tsuchiya, Shinji Ito, Junya Honda
Multi Armed Bandit Learning Rate Sparsity Increase Optimal Regret Follow the Regularized Leader Bandit Problem Best of Both World Algorithm Dependency Aware Incident

May 25, 2023

ADLER -- An efficient Hessian-based strategy for adaptive learning rate
Dario Balboni, Davide Bacciu
Learning Rate Hessian Matrix Hessian Vector Product Local Approximation Positive Semi Definite

May 24, 2023

Non-Parametric Learning of Stochastic Differential Equations with Non-asymptotic Fast Rates of Convergence
Riccardo Bonalli, Alessandro Rudi
Early Stage Convergence Learning Rate Stochastic Differential Equation Non Asymptotic Fokker Planck Equation Non Parametric Learning Diffusion Coefficient

May 13, 2023

Depth Dependence of $\mu$P Learning Rates in ReLU MLPs
Samy Jelassi, Boris Hanin, Ziwei Ji, Sashank J. Reddi, Srinadh Bhojanapalli, Sanjiv Kumar
Learning Rate ReLU Network ReLU Layer

May 12, 2023

MoMo: Momentum Models for Adaptive Learning Rates
Fabian Schaipp, Ruben Ohana, Michael Eickenberg, Aaron Defazio, Robert M. Gower
Stochastic Gradient Descent Learning Rate Momentum Based

May 11, 2023

On the convergence of the MLE as an estimator of the learning rate in the Exp3 algorithm
Julien Aubert, Luc Lehéricy, Patricia Reynaud-Bouret
Estimation Task Early Stage Convergence Learning Rate Maximum Likelihood Learning Algorithm Linear Estimator Exponential Weight

April 30, 2023

The ART of Transfer Learning: An Adaptive and Robust Pipeline
Boxiang Wang, Yunan Wu, Chenglong Ye
Transfer Learning Adaptive Importance Learning Rate Adaptive Transfer Learning Robust Transfer Learning Generic Machine Learning

April 27, 2023

Learning Absorption Rates in Glucose-Insulin Dynamics from Meal Covariates
Ke Alexander Wang, Matthew E. Levine, Jiaxin Shi, Emily B. Fox
Learning Rate Relevant Covariates Blood Glucose Glucose Data

April 23, 2023

The Disharmony between BN and ReLU Causes Gradient Explosion, but is Offset by the Correlation between Activations
Inyoung Paik, Jaesik Choi
Learning Rate Total Correlation Targeted Activation Penalty ReLU Layer ReLU Activation Training Instability

April 20, 2023

Angle based dynamic learning rate for gradient descent
Neel Mishra, Pawan Kumar
Gradient Descent Learning Rate Tilting Angle Gradient Based Explanation

April 15, 2023

Gradient-less Federated Gradient Boosting Trees with Learnable Learning Rates
Chenyang Ma, Xinchi Qiu, Daniel J. Beutel, Nicholas D. Lane
Learning Rate Decentralized Data XGBoost Model Tree Ensemble Extreme Gradient Boosting Federated Gradient Boosting

April 9, 2023

$\mu^2$-SGD: Stable Stochastic Optimization via a Double Momentum Mechanism
Kfir Y. Levy
Stochastic Gradient Descent Learning Rate Gradient Estimation Stochastic Convex Optimization Momentum Based Optimal Convergence Rate SGD Style Stable Optimization

April 7, 2023

CMA-ES with Learning Rate Adaptation: Can CMA-ES with Default Population Size Solve Multimodal and Noisy Problems?
Masahiro Nomura, Youhei Akimoto, Isao Ono
Industrial Disturbing Noise Learning Rate Covariance Matrix Adaptation Evolution Strategy CMA E

April 6, 2023

Pairwise Ranking with Gaussian Kernels
Guanhang Lei, Lei Shi
Learning Rate Gaussian Kernel Pairwise Ranking Oracle Inequality