Learning Rate

Learning rate, a crucial hyperparameter in training neural networks, dictates the step size during optimization. Current research focuses on developing adaptive learning rate schedules, such as warmup-stable-decay and learning rate path switching, to improve training efficiency and generalization, particularly for large language models and other deep learning architectures. These advancements aim to address challenges like finding optimal learning rates across varying model sizes, datasets, and training durations, ultimately leading to faster convergence and better model performance. The impact extends to various applications, from natural language processing and computer vision to scientific computing and reinforcement learning.

Papers

April 6, 2023

Pairwise Ranking with Gaussian Kernels
Guanhang Lei, Lei Shi
Learning Rate Gaussian Kernel Pairwise Ranking Oracle Inequality

March 28, 2023

FedAgg: Adaptive Federated Learning with Aggregated Gradients
Wenhao Yuan, Xuehe Wang
Gradient Descent Learning Rate Decentralized Learning Aggregated Gradient Adaptive Federated Learning Training Epoch

March 27, 2023

Adaptive Federated Learning via New Entropy Approach
Shensheng Zheng, Wenhao Yuan, Xuehe Wang, Lingjie Duan
Learning Rate Decentralized Learning Entropy Model Adaptive Federated Learning

March 26, 2023

Fast Rate Information-theoretic Bounds on Generalization Errors
Xuetong Wu, Jonathan H. Manton, Uwe Aickelin, Jingge Zhu
Practical Algorithm Learning Rate Convergence Rate Generalization Error Information Theoretic

March 2, 2023

Why (and When) does Local SGD Generalize Better than SGD?
Xinran Gu, Kaifeng Lyu, Longbo Huang, Sanjeev Arora
Stochastic Gradient Descent Learning Rate Local SGD Local Minimum

March 1, 2023

AdaSAM: Boosting Sharpness-Aware Minimization with Adaptive Learning Rate and Momentum for Training Deep Neural Networks
Hao Sun, Li Shen, Qihuang Zhong, Liang Ding, Shixiang Chen, Jingwei Sun, Jing Li, Guangzhong Sun, Dacheng Tao
Learning Rate Stochastic Gradient Sharpness Aware Minimization Residual Momentum Training Deep Minimization Problem

February 23, 2023

Phase diagram of early training dynamics in deep neural networks: effect of the learning rate, depth, and width
Dayal Singh Kalra, Maissam Barkeshli
Deep Neural Network Gradient Descent Learning Rate Large Depth Training Dynamic Dynamic Optimization Advanced Transient Diagnostic Phase Diagram Transient Dynamic

February 18, 2023

Generalization and Stability of Interpolating Neural Networks with Minimal Width
Hossein Taheri, Christos Thrampoulidis
Neural Network Strong Generalization Gradient Descent Core Stability Learning Rate Generalization Bound Shallow Neural Network Minimum Width

February 14, 2023

Stochastic Modified Flows, Mean-Field Limits and Dynamics of Stochastic Gradient Descent
Benjamin Gess, Sebastian Kassing, Vitalii Konarovskyi
Stochastic Gradient Descent Learning Rate Brownian Motion Limit Cycle Stochastic Gradient Flow Mean Field Limit

February 13, 2023

FedDA: Faster Framework of Local Adaptive Gradient Methods via Restarted Dual Averaging
Junyi Li, Feihu Huang, Heng Huang
Federated Learning Learning Rate FedAvg Algorithm Adaptive Gradient Method Faster Model Dual Averaging

February 12, 2023

Near-optimal learning with average H\"older smoothness
Steve Hanneke, Aryeh Kontorovich, Guy Kornowski
Learning Rate Average Smoothness

February 3, 2023

Sharp Spectral Rates for Koopman Operator Learning
Vladimir Kostic, Karim Lounici, Pietro Novelli, Massimiliano Pontil
Learning Rate Koopman Operator Spectral Normalization Reverse Time

February 1, 2023

QLABGrad: a Hyperparameter-Free and Convergence-Guaranteed Scheme for Deep Learning
Minghan Fu, Fang-Xiang Wu
Deep Learning Learning Rate Convergence Guarantee Quadratic Loss Hyperparameter Free

January 31, 2023

Mind the (optimality) Gap: A Gap-Aware Learning Rate Scheduler for Adversarial Nets
Hussein Hazimeh, Natalia Ponomareva
GAN Model Adversarial Learning Learning Rate Human Mind Near Optimality Learning Rate Scheduler

January 28, 2023

Unbiased and Efficient Self-Supervised Incremental Contrastive Learning
Cheng Ji, Jianxin Li, Hao Peng, Jia Wu, Xingcheng Fu, Qingyun Sun, Phillip S. Yu
Contrastive Learning Incremental Learning Learning Rate

January 25, 2023

When to Trust Aggregated Gradients: Addressing Negative Client Sampling in Federated Learning
Wenkai Yang, Yankai Lin, Guangxiang Zhao, Peng Li, Jie Zhou, Xu Sun
Learning Rate Client Sampling Aggregated Gradient Server Learning Rate

January 18, 2023

January 5, 2023

Training trajectories, mini-batch losses and the curious role of the learning rate
Mark Sandler, Andrey Zhmoginov, Max Vladymyrov, Nolan Miller
Loss Function Gradient Descent Stochastic Gradient Descent Integral Role Learning Rate Mini Batch Training Trajectory Stochastic Weight Averaging Gradient Descent Trajectory

December 14, 2022

Maximal Initial Learning Rates in Deep ReLU Networks
Gaurav Iyer, Boris Hanin, David Rolnick
Learning Rate Deep ReLU Network