Learning Rate

Learning rate, a crucial hyperparameter in training neural networks, dictates the step size during optimization. Current research focuses on developing adaptive learning rate schedules, such as warmup-stable-decay and learning rate path switching, to improve training efficiency and generalization, particularly for large language models and other deep learning architectures. These advancements aim to address challenges like finding optimal learning rates across varying model sizes, datasets, and training durations, ultimately leading to faster convergence and better model performance. The impact extends to various applications, from natural language processing and computer vision to scientific computing and reinforcement learning.

Papers

July 9, 2022

Improved Binary Forward Exploration: Learning Rate Scheduling Method for Stochastic Optimization
Xin Cao
Gradient Descent Stochastic Gradient Descent Learning Rate Gradient Based Stochastic Optimization Binary Forward Exploration

July 6, 2022

BFE and AdaBFE: A New Approach in Learning Rate Automation for Stochastic Optimization
Xin Cao
Novel Approach Learning Rate Stochastic Optimization Binary Forward Exploration

June 27, 2022

Theoretical analysis of Adam using hyperparameters close to one without Lipschitz smoothness
Hideaki Iiduka
Learning Rate Theoretical Analysis Related Hyperparameters Nonconvex Optimization Adaptive Moment Estimation Convergence Rate Analysis

June 16, 2022

Sharper Convergence Guarantees for Asynchronous SGD for Distributed and Federated Learning
Anastasia Koloskova, Sebastian U. Stich, Martin Jaggi
Learning Rate Convergence Rate Convergence Guarantee Clean Distribution Asynchronous SGD Asynchronous Stochastic Gradient Delay

June 14, 2022

Grad-GradaGrad? A Non-Monotone Adaptive Stochastic Gradient Method
Aaron Defazio, Baoyu Zhou, Lin Xiao
Learning Rate Dynamic Adaptation Order Gradient Full Matrix AdaGrad

June 3, 2022

MetaLR: Meta-tuning of Learning Rates for Transfer Learning in Medical Imaging
Yixiong Chen, Li Liu, Jingxian Li, Hua Jiang, Chris Ding, Zongwei Zhou
Fine Tuning Transfer Learning Medical Imaging Learning Rate Feature Transfer Meta Tuning

May 30, 2022

Adversarial Bandits against Arbitrary Strategies
Jung-hun Kim, Se-Young Yun
Learning Rate Adversarial Bandit Online Mirror Descent Deterministic Strategy Base Algorithm

May 27, 2022

May 22, 2022

Investigating classification learning curves for automatically generated and labelled plant images
Michael A. Beck, Christopher P. Bidinosti, Christopher J. Henry, Manisha Ajmani
Supervised Learning Learning Rate Classification Task Classification Performance Learnable Parameter Learning Curve Leaf Image

May 18, 2022

LeRaC: Learning Rate Curriculum
Florinel-Alin Croitoru, Nicolae-Catalin Ristea, Radu Tudor Ionescu, Nicu Sebe
Learning Rate Curriculum Learning Strong Learner Data Based Curriculum

May 15, 2022

Guidelines for the Regularization of Gammas in Batch Normalization for Deep Residual Networks
Bum Jun Kim, Hyeyeon Choi, Hyeonah Jang, Dong Gu Lee, Wonseok Jeong, Sang Woo Kim
Learning Rate Batch Normalization State Aware Guideline Gamma Ray L2 Regularization

May 8, 2022

Impact of Learning Rate on Noise Resistant Property of Deep Learning Models
Omobayode Fagbohungbe, Lijun Qian
Deep Learning Deep Learning Model Global Impact Learning Rate Analog Computing Noise Resistant Property Analog Audio Effect

May 6, 2022

Fast Rate Generalization Error Bounds: Variations on a Theme
Xuetong Wu, Jonathan H. Manton, Uwe Aickelin, Jingge Zhu
Learning Rate Generalization Error Information Theoretic Category Wise Variation Thematic Analysis

May 3, 2022

High-dimensional Asymptotics of Feature Learning: How One Gradient Step Improves the Representation
Jimmy Ba, Murat A. Erdogdu, Taiji Suzuki, Zhichao Wang, Denny Wu, Greg Yang
High Dimensional Learning Rate Individual Representation Feature Learning Two Layer Neural Network Layer Selection Gradient Step

April 28, 2022

On the Arithmetic and Geometric Fusion of Beliefs for Distributed Inference
Mert Kayaalp, Yunus Inan, Emre Telatar, Ali H. Sayed
Learning Rate Belief State Hypothesis Testing Arithmetic Operation Distributed Inference Geometry Aware Fusion Human Belief Network

April 6, 2022

Random Features Model with General Convex Regularization: A Fine Grained Analysis with Precise Asymptotic Learning Curves
David Bosch, Ashkan Panahi, Ayca Özcelikkale, Devdatt Dubhash
Fine Grained Gaussian Process Learning Rate Random Feature Convex Regularization

April 2, 2022

AdaSmooth: An Adaptive Learning Rate Method based on Effective Ratio
Jun Lu
Gradient Descent Multi Layer Learning Rate Stochastic Optimization Different Convolutional Neural Network

March 18, 2022

Negative Inner-Loop Learning Rates Learn Universal Features
Tom Starshak
Learning Rate Task Adaptation Meta Gradient Agnostic Meta learnIng Negative Learning Learning Loop

March 2, 2022

Towards Efficient and Stable K-Asynchronous Federated Learning with Unbounded Stale Gradients on Non-IID Data
Zihao Zhou, Yanan Li, Xuebin Ren, Shusen Yang
High Efficiency Raw Data Learning Rate Asynchronous Federated Learning Stale Gradient Staleness Problem Gradient Consistency

Learning Rate

Papers

Improved Binary Forward Exploration: Learning Rate Scheduling Method for Stochastic Optimization

BFE and AdaBFE: A New Approach in Learning Rate Automation for Stochastic Optimization

Theoretical analysis of Adam using hyperparameters close to one without Lipschitz smoothness

Sharper Convergence Guarantees for Asynchronous SGD for Distributed and Federated Learning

Grad-GradaGrad? A Non-Monotone Adaptive Stochastic Gradient Method

MetaLR: Meta-tuning of Learning Rates for Transfer Learning in Medical Imaging

Adversarial Bandits against Arbitrary Strategies

DLTTA: Dynamic Learning Rate for Test-time Adaptation on Cross-domain Medical Images

Incorporating the Barzilai-Borwein Adaptive Step Size into Sugradient Methods for Deep Network Training

Investigating classification learning curves for automatically generated and labelled plant images

LeRaC: Learning Rate Curriculum

Guidelines for the Regularization of Gammas in Batch Normalization for Deep Residual Networks

Impact of Learning Rate on Noise Resistant Property of Deep Learning Models

Fast Rate Generalization Error Bounds: Variations on a Theme

High-dimensional Asymptotics of Feature Learning: How One Gradient Step Improves the Representation

On the Arithmetic and Geometric Fusion of Beliefs for Distributed Inference

Random Features Model with General Convex Regularization: A Fine Grained Analysis with Precise Asymptotic Learning Curves

AdaSmooth: An Adaptive Learning Rate Method based on Effective Ratio

Negative Inner-Loop Learning Rates Learn Universal Features

Towards Efficient and Stable K-Asynchronous Federated Learning with Unbounded Stale Gradients on Non-IID Data