Learning Rate

Learning rate, a crucial hyperparameter in training neural networks, dictates the step size during optimization. Current research focuses on developing adaptive learning rate schedules, such as warmup-stable-decay and learning rate path switching, to improve training efficiency and generalization, particularly for large language models and other deep learning architectures. These advancements aim to address challenges like finding optimal learning rates across varying model sizes, datasets, and training durations, ultimately leading to faster convergence and better model performance. The impact extends to various applications, from natural language processing and computer vision to scientific computing and reinforcement learning.

Papers

November 6, 2023

Signal Processing Meets SGD: From Momentum to Filter
Zhipeng Yao, Guiyuan Fu, Ying Li, Yu Zhang, Dazhou Li, Rui Yu
Stochastic Gradient Descent Learning Rate Signal Processing Residual Momentum Slow Convergence

October 27, 2023

October 17, 2023

An Automatic Learning Rate Schedule Algorithm for Achieving Faster Convergence and Steeper Descent
Zhao Song, Chiwun Yang
Learning Rate Faster Convergence

October 16, 2023

AdaLomo: Low-memory Optimization with Adaptive Learning Rate
Kai Lv, Hang Yan, Qipeng Guo, Haijun Lv, Xipeng Qiu
Large Language Model Stochastic Gradient Descent Learning Rate Adam Optimizer Memory Efficient

October 11, 2023

Optimal Linear Decay Learning Rate Schedules and Further Refinements
Aaron Defazio, Ashok Cutkosky, Harsh Mehta, Konstantin Mishchenko
Learning Rate Gradient Norm Decay Function Learning Rate Schedule

October 4, 2023

FedHyper: A Universal and Robust Learning Rate Scheduler for Federated Learning with Hypergradient Descent
Ziyao Wang, Jianyu Wang, Ang Li
Hyperparameter Optimization Learning Rate Hypergradient Descent

October 3, 2023

Stochastic Gradient Descent with Preconditioned Polyak Step-size
Farshed Abdukhakimov, Chulu Xiang, Dmitry Kamzolov, Martin Takáč
Stochastic Gradient Descent Learning Rate Multiple Optimization Polyak Step Size

September 23, 2023

On the Asymptotic Learning Curves of Kernel Ridge Regression under Power-law Decay
Yicheng Li, Haobo Zhang, Qian Lin
Learning Rate Kernel Ridge Regression Benign Overfitting Regularization Parameter

September 21, 2023

State2Explanation: Concept-Based Explanations to Benefit Agent Learning and User Understanding
Devleena Das, Sonia Chernova, Been Kim
Line by Line Explanation Learning Rate Reward Shaping Sequential Decision Making Concept Based Explanation Human AI Decision Making User Understanding Agent Learning

September 18, 2023

FedLALR: Client-Specific Adaptive Learning Rates Achieve Linear Speedup for Non-IID Data
Hao Sun, Li Shen, Shixiang Chen, Jingwei Sun, Jing Li, Guangzhong Sun, Dacheng Tao
Raw Data Large Scale Learning Rate Linear Speedup FedCF Method

September 16, 2023

Rethinking Learning Rate Tuning in the Era of Large Language Models
Hongpeng Jin, Wenqi Wei, Xuyu Wang, Wenbin Zhang, Yanzhao Wu
Learning Rate New Era LLM Fine Tuning DNN Training Learning Rate Schedule

September 12, 2023

ELRA: Exponential learning rate adaption gradient descent optimization method
Alexander Kleinsorge, Stefan Kupper, Alexander Fauck, Felix Rothe
Gradient Descent Learning Rate Exponential Mechanism Rate Adaptation

August 21, 2023

We Don't Need No Adam, All We Need Is EVE: On The Variance of Dual Learning Rate And Beyond
Afshin Khadangi
Deep Learning Learning Rate Faster Convergence Variance Information Velocity Estimation Dual Learning

August 7, 2023

Optimal Approximation and Learning Rates for Deep Convolutional Neural Networks
Shao-Bo Lin
Deep Convolutional Neural Network Learning Rate Average Approximation Approximation Rate Pooling Operator

August 6, 2023

Learning-Rate-Free Learning: Dissecting D-Adaptation and Probabilistic Line Search
Max McGuinness
Stochastic Gradient Descent Adaptation Concern Learning Rate Optimal Rate Learning Rate Free Stochastic Line Search

July 27, 2023

The Marginal Value of Momentum for Small Learning Rate SGD
Runzhe Wang, Sadhika Malladi, Tianhao Wang, Kaifeng Lyu, Zhiyuan Li
Gradient Descent Learning Rate Residual Momentum Gradient Noise Marginal Probability

July 26, 2023

Function Value Learning: Adaptive Learning Rates Based on the Polyak Stepsize and Function Splitting in ERM
Guillaume Garrigos, Robert M. Gower, Fabian Schaipp
Gradient Descent Stochastic Gradient Descent Learning Rate Empirical Risk Minimization Value Function Step Size Splitting Algorithm Polyak Step Size

July 12, 2023

No Train No Gain: Revisiting Efficient Training Algorithms For Transformer-based Language Models
Jean Kaddour, Oscar Key, Piotr Nawrot, Pasquale Minervini, Matt J. Kusner
Learning Rate Transformer Based Language Model High Speed Train System Big Gain Pre Trained BERT Training Algorithm

June 26, 2023

Gradient Descent Converges Linearly for Logistic Regression on Separable Data
Kyriakos Axiotis, Maxim Sviridenko
Gradient Descent Learning Rate Logistic Regression Separable Data Learning Guarantee Sparsity Tradeoff

Learning Rate

Papers

Signal Processing Meets SGD: From Momentum to Filter

Model-free Posterior Sampling via Learning Rate Randomization

Closing the Gap Between the Upper Bound and the Lower Bound of Adam's Iteration Complexity

An Automatic Learning Rate Schedule Algorithm for Achieving Faster Convergence and Steeper Descent

AdaLomo: Low-memory Optimization with Adaptive Learning Rate

Optimal Linear Decay Learning Rate Schedules and Further Refinements

FedHyper: A Universal and Robust Learning Rate Scheduler for Federated Learning with Hypergradient Descent

Stochastic Gradient Descent with Preconditioned Polyak Step-size

On the Asymptotic Learning Curves of Kernel Ridge Regression under Power-law Decay

State2Explanation: Concept-Based Explanations to Benefit Agent Learning and User Understanding

FedLALR: Client-Specific Adaptive Learning Rates Achieve Linear Speedup for Non-IID Data

Rethinking Learning Rate Tuning in the Era of Large Language Models

ELRA: Exponential learning rate adaption gradient descent optimization method

We Don't Need No Adam, All We Need Is EVE: On The Variance of Dual Learning Rate And Beyond

Optimal Approximation and Learning Rates for Deep Convolutional Neural Networks

Learning-Rate-Free Learning: Dissecting D-Adaptation and Probabilistic Line Search

The Marginal Value of Momentum for Small Learning Rate SGD

Function Value Learning: Adaptive Learning Rates Based on the Polyak Stepsize and Function Splitting in ERM

No Train No Gain: Revisiting Efficient Training Algorithms For Transformer-based Language Models

Gradient Descent Converges Linearly for Logistic Regression on Separable Data