Decay Regularization

Decay regularization, a technique used to improve the generalization and stability of neural networks, is a focus of current research aiming to enhance model efficiency and robustness. Studies explore its impact on various architectures, including convolutional neural networks, recurrent neural networks, and transformers, often focusing on how different forms of decay regularization (e.g., weight decay, norm control) affect training dynamics and the resulting model properties. This research is significant because it addresses challenges in deploying large neural networks on resource-constrained devices and improving the reliability and performance of models across diverse datasets and tasks.

Papers

October 31, 2024

Global Convergence in Training Large-Scale Transformers
Cheng Gao, Yuan Cao, Zihao Li, Yihan He, Mengdi Wang, Han Liu, Jason Matthew Klusowski, Jianqing Fan
Training Data Gradient Flow Global Convergence Transformer Training Large Scale Transformer Decay Regularization

May 6, 2024

Structure-Preserving Network Compression Via Low-Rank Induced Training Through Linear Layers Composition
Xitong Zhang, Ismail R. Alkhouri, Rongrong Wang
Convolutional Neural Network Deep Neural Network Low Rank Decomposition Network Compression Linear Layer Functional Compression Decay Regularization

November 19, 2023

Weight Norm Control
Ilya Loshchilov
Weight Decay Weight Distribution Decay Regularization Target Norm

November 18, 2023

Polynomial-Time Solutions for ReLU Network Training: A Complexity Classification via Max-Cut and Zonotopes
Yifei Wang, Mert Pilanci
Polynomial Time ReLU Network ReLU Layer Two Layer ReLU Polynomial Time Approximation Polynomial Zonotopes Decay Regularization Difficulty Score

November 10, 2023

Minimum norm interpolation by perceptra: Explicit regularization and implicit bias
Jiyoung Park, Ian Pelakh, Stephan Wojtowytsch
Empirical Risk Minimization Implicit Bias Explicit Regularization Shallow ReLU Decay Regularization Minimum Norm

June 29, 2023

Spectral Batch Normalization: Normalization in the Frequency Domain
Rinor Cakaj, Jens Mehnert, Bin Yang
Batch Normalization Normalization Dictionary Frequency Domain Regularization Method Spectral Normalization Decay Regularization

May 25, 2023

Variation Spaces for Multi-Output Neural Networks: Insights on Multi-Task Learning and Network Compression
Joseph Shenouda, Rahul Parhi, Kangwook Lee, Robert D. Nowak
Multi Task Learning DCU Insight AQ Vector Valued Network Compression Decay Regularization Kernel Banach Space Variation Space

January 23, 2023

Deep Learning Meets Sparse Regularization: A Signal Processing Perspective
Rahul Parhi, Robert D. Nowak
Deep Learning Deep Neural Network Signal Processing Sparse Regularization Decay Regularization Mathematical Discovery

January 16, 2023

$\beta$-DARTS++: Bi-level Regularization for Proxy-robust Differentiable Architecture Search
Peng Ye, Tong He, Baopu Li, Tao Chen, Lei Bai, Wanli Ouyang
Differentiable Architecture Search Proxy Dataset Na Method Decay Regularization Layer Regularization

December 16, 2022

Preventing RNN from Using Sequence Length as a Feature
Jean-Thomas Baillargeon, Hélène Cossette, Luc Lamontagne
Recurrent Neural Network Content Based Feature \Sigma}{\Delta}$ Low Pas RNN Long Document Classification Performance Sequence Length Decay Regularization

September 2, 2022

Optimal bump functions for shallow ReLU networks: Weight decay, depth separation and the curse of dimensionality
Stephan Wojtowytsch
Neural Network Activation Function Data Dimensionality Hidden Layer Global Minimum Shallow ReLU Weight Decay Depth Separation Decay Regularization

March 3, 2022

$\beta$-DARTS: Beta-Decay Regularization for Differentiable Architecture Search
Peng Ye, Baopu Li, Yikang Li, Tao Chen, Jiayuan Fan, Wanli Ouyang
Neural Architecture Search Differentiable Architecture Search Regularization Based Method Na Method Decay Regularization Differentiable Na

Decay Regularization

Papers

Global Convergence in Training Large-Scale Transformers

Structure-Preserving Network Compression Via Low-Rank Induced Training Through Linear Layers Composition

Weight Norm Control

Polynomial-Time Solutions for ReLU Network Training: A Complexity Classification via Max-Cut and Zonotopes

Minimum norm interpolation by perceptra: Explicit regularization and implicit bias

Spectral Batch Normalization: Normalization in the Frequency Domain

Variation Spaces for Multi-Output Neural Networks: Insights on Multi-Task Learning and Network Compression

Deep Learning Meets Sparse Regularization: A Signal Processing Perspective

$\beta$-DARTS++: Bi-level Regularization for Proxy-robust Differentiable Architecture Search

Preventing RNN from Using Sequence Length as a Feature

Optimal bump functions for shallow ReLU networks: Weight decay, depth separation and the curse of dimensionality

$\beta$-DARTS: Beta-Decay Regularization for Differentiable Architecture Search