Learning Rate

Learning rate, a crucial hyperparameter in training neural networks, dictates the step size during optimization. Current research focuses on developing adaptive learning rate schedules, such as warmup-stable-decay and learning rate path switching, to improve training efficiency and generalization, particularly for large language models and other deep learning architectures. These advancements aim to address challenges like finding optimal learning rates across varying model sizes, datasets, and training durations, ultimately leading to faster convergence and better model performance. The impact extends to various applications, from natural language processing and computer vision to scientific computing and reinforcement learning.

Papers

June 27, 2024

Resolving Discrepancies in Compute-Optimal Scaling of Language Models
Tomer Porian, Mitchell Wortsman, Jenia Jitsev, Ludwig Schmidt, Yair Carmon
Language Model Learning Rate Scaling Law Model Size Task Discrepancy Optimal Scaling

June 24, 2024

Adam-mini: Use Fewer Learning Rates To Gain More
Yushun Zhang, Congliang Chen, Ziniu Li, Tian Ding, Chenwei Wu, Yinyu Ye, Zhi-Quan Luo, Ruoyu Sun
Learning Rate Large Learning Rate Adam V2

June 20, 2024

Learning rate adaptive stochastic gradient descent optimization methods: numerical simulations for deep learning methods for partial differential equations and convergence analyses
Steffen Dereich, Arnulf Jentzen, Adrian Riekert
Deep Learning Gradient Descent Stochastic Gradient Descent Learning Rate Numerical Simulation

June 13, 2024

Why Warmup the Learning Rate? Underlying Mechanisms and Improvements
Dayal Singh Kalra, Maissam Barkeshli
Deep Learning Learning Rate Large Relevance Improvement Functional Mechanism Warmup Period

June 12, 2024

The Impact of Initialization on LoRA Finetuning Dynamics
Soufiane Hayou, Nikhil Ghosh, Bin Yu
Global Impact Learning Rate Low Rank Adaptation Efficient Learning New Initialization Initialization Scheme

June 11, 2024

Heterogeneous Learning Rate Scheduling for Neural Architecture Search on Long-Tailed Datasets
Chenxia Tang
Neural Architecture Search Learning Rate Long Tailed Imbalanced Datasets Differentiable Architecture Search

June 6, 2024

May 30, 2024

A Simple and Adaptive Learning Rate for FTRL in Online Learning with Minimax Regret of $\Theta(T^{2/3})$ and its Application to Best-of-Both-Worlds
Taira Tsuchiya, Shinji Ito
Online Learning Learning Rate Minimax Regret Follow the Regularized Leader Graph Bandit

May 28, 2024

Scaling Laws and Compute-Optimal Training Beyond Fixed Training Durations
Alexander Hägele, Elie Bakouch, Atli Kosson, Loubna Ben Allal, Leandro Von Werra, Martin Jaggi
Learning Rate Scaling Law Scaling Behavior Training Compute Stochastic Weight Averaging

May 24, 2024

Fundamental computational limits of weak learnability in high-dimensional multi-index models
Emanuele Troiani, Yatin Dandi, Leonardo Defilippis, Lenka Zdeborová, Bruno Loureiro, Florent Krzakala
Learning Rate Fundamental Limit Low Dimensional Structure High Dimensional Regime Weak Learning Multi Index Model

May 23, 2024

Surge Phenomenon in Optimal Learning Rate and Batch Size Scaling
Shuaipeng Li, Penghao Zhao, Hailin Zhang, Xingwu Sun, Hao Wu, Dian Jiao, Weiyan Wang, Chengjun Liu, Zheng Fang, Jinbao Xue, Yangyu Tao, Bin Cui, Di Wang
Learning Rate Batch Size SGD Style Adam Algorithm

May 22, 2024

Deep linear networks for regression are implicitly regularized towards flat minima
Pierre Marion, Lénaïc Chizat
Gradient Descent Learning Rate Novel Regression Gradient Flow Implicit Regularization Deep Linear Flat Minimum

April 30, 2024

Transition Rate Scheduling for Quantization-Aware Training
Junghyup Lee, Jeimin Jeon, Dohyung Kim, Bumsub Ham
Learning Rate Quantization Aware Training Weight Freezing Weight Only Quantization Quantization Step Variable Rate

April 26, 2024

Hard ASH: Sparsity and the right optimizer make a continual learner
Santtu Keskinen
Catastrophic Forgetting Incremental Learning Learning Rate Sparsity Increase Sparse Activation Continual Learner Swish Activation

April 23, 2024

FLARE: A New Federated Learning Framework with Adjustable Learning Rates over Resource-Constrained Wireless Networks
Bingnan Xiao, Jingjing Zhang, Wei Ni, Xin Wang
Federated Learning Learning Rate Wireless Network Scheduling Policy Heterogeneous Wireless Training Iteration

April 17, 2024

FastFace: Fast-converging Scheduler for Large-scale Face Recognition Training with One GPU
Xueyuan Gong, Zhiquan Liu, Yain-Whar Si, Xiaochen Yuan, Ke Wang, Xiaoxiang Liu, Cong Lin, Xinyuan Zhang
Face Recognition Learning Rate Single GPU Deep Face Recognition Large Scale Face Recognition

March 27, 2024

Intelligent Learning Rate Distribution to reduce Catastrophic Forgetting in Transformers
Philip Kenneweg, Alexander Schulz, Sarah Schröder, Barbara Hammer
Language Model Transformer Megatron Decepticons Large Corpus Catastrophic Forgetting Learning Rate

March 15, 2024

PALM: Pushing Adaptive Learning Rate Mechanisms for Continual Test-Time Adaptation
Sarthak Kumar Maharana, Baoming Zhang, Yunhui Guo
Learning Rate Pre Trained Network Continual Test Time Adaptation Palm ID Imagenet C

March 13, 2024

Cyclical Log Annealing as a Learning Rate Scheduler
Philip Naveen
Generative Adversarial Network Stochastic Gradient Descent Learning Rate Model Training Spatial Annealing Smoothing