Learning Rate

Learning rate, a crucial hyperparameter in training neural networks, dictates the step size during optimization. Current research focuses on developing adaptive learning rate schedules, such as warmup-stable-decay and learning rate path switching, to improve training efficiency and generalization, particularly for large language models and other deep learning architectures. These advancements aim to address challenges like finding optimal learning rates across varying model sizes, datasets, and training durations, ultimately leading to faster convergence and better model performance. The impact extends to various applications, from natural language processing and computer vision to scientific computing and reinforcement learning.

Papers

September 30, 2024

Scaling Optimal LR Across Token Horizon
Johan Bjorck, Alon Benhaim, Vishrav Chaudhary, Furu Wei, Xia Song
Learning Rate Optimal Hyperparameters Transfer Hyperparameter Optimisation

September 25, 2024

Super Level Sets and Exponential Decay: A Synergistic Approach to Stable Neural Network Training
Jatin Chaudhary, Dipak Nidhi, Jukka Heikkonen, Haari Merisaari, Rajiv Kanth
Learning Rate Synergistic Information Consistency Training Level Set Decay Function Stable Neural Network

September 16, 2024

Convergence of Sharpness-Aware Minimization Algorithms using Increasing Batch Size and Decaying Learning Rate
Hinata Harada, Hideaki Iiduka
Early Stage Convergence Learning Rate Sharpness Aware Minimization Batch Size Original PAMMEDSIL Algorithm

September 15, 2024

Learning Rate Optimization for Deep Neural Networks Using Lipschitz Bandits
Padma Priyanka, Sheetal Kalyani, Avhishek Chatterjee
Deep Neural Network Hyperparameter Optimization Learning Rate Bandit Learning Lipschitz Bandit

September 12, 2024

A framework for measuring the training efficiency of a neural architecture
Eduardo Cueto-Mendoza, John D. Kelleher
Convolutional Neural Network New Framework Neural Architecture Learning Rate

September 10, 2024

Dynamic Decoupling of Placid Terminal Attractor-based Gradient Descent Algorithm
Jinwei Zhao (1), Marco Gori (2), Alessandro Betti (3), Stefano Melacci (2), Hongtao Zhang (1), Jiedong Liu (1), Xinhong Hei (1) ((1) Faculty of Computer Science and Engineering, Xi'an University of Technology, Xi'an, China (2) Department of Information Engineering and Mathematics, University of Siena, Siena, Italy (3) IMT Scuola Alti Studi, Lucca, Italy)
Gradient Descent Learning Rate Gradient Flow Multi Agent Decoupling Coefficient Attractor Network Global Attractor

September 8, 2024

September 5, 2024

Reducing Bias in Deep Learning Optimization: The RSGDM Approach
Honglin Qin, Hongye Zheng, Bingxing Wang, Zhizhong Wu, Bingyao Liu, Yuanfang Yang
Neural Network Stochastic Gradient Descent Learning Rate Fast AltGDA Type Algorithm SGDA Algorithm

August 30, 2024

A Tighter Convergence Proof of Reverse Experience Replay
Nan Jiang, Jinzhao Li, Yexiang Xue
Reinforcement Learning Learning Rate Experience Replay State Reward

August 24, 2024

Optimal Kernel Quantile Learning with Random Features
Caixing Wang, Xingdong Feng
Learning Rate Random Feature Kernel Ridge Regression Large Scale Kernel

August 20, 2024

Scaling Law with Learning Rate Annealing
Howe Tissue, Venus Wang, Lu Wang
Language Model Learning Rate Cross Entropy Loss Neural Language Model Scaling Law Language Modeling Loss Spatial Annealing Smoothing

August 9, 2024

A Geometric Nash Approach in Tuning the Learning Rate in Q-Learning Algorithm
Kwadwo Osei Bonsu
Practical Algorithm Q Learning Nash Equilibrium Learning Rate Vector Valued Loss Minimization Exploration Exploitation Trade

August 7, 2024

Learning Rate-Free Reinforcement Learning: A Case for Model Selection with Non-Stationary Objectives
Aida Afshar, Aldo Pacchiano
Reinforcement Learning Learning Rate Case Relevance Reinforcement Learning Algorithm Model Selection Time Varying Objective Learning Rate Free Standard Bandit

July 30, 2024

No learning rates needed: Introducing SALSA -- Stable Armijo Line Search Adaptation
Philip Kenneweg, Tristan Kenneweg, Fabian Fumagalli, Barbara Hammer
Stochastic Gradient Descent Learning Rate Stochastic Gradient Pytorch Model Line Search SALSA Fresca Armijo Line Search

July 11, 2024

July 10, 2024

Probabilistic learning rate scheduler with provable convergence
Dahlia Devapriya, Thulasi Tholeti, Janani Suresh, Sheetal Kalyani
Learning Rate Provable Convergence Variable Rate Convergence Proof

July 8, 2024

Stepping on the Edge: Curvature Aware Learning Rate Tuners
Vincent Roulet, Atish Agarwala, Jean-Bastien Grill, Grzegorz Swirszcz, Mathieu Blondel, Fabian Pedregosa
Extreme Edge Learning Rate Cross Over Step Rate Adaptation

July 1, 2024

Normalization and effective learning rates in reinforcement learning
Clare Lyle, Zeyu Zheng, Khimya Khetarpal, James Martens, Hado van Hasselt, Razvan Pascanu, Will Dabney
Reinforcement Learning Deep Reinforcement Learning Learning Rate Normalization Dictionary Normalization Layer Plasticity Loss