Faster Training

Faster training of machine learning models is a crucial research area aiming to reduce computational costs and energy consumption while maintaining or improving model performance. Current efforts focus on optimizing existing architectures like Transformers and neural networks through techniques such as improved initialization strategies, efficient sampling methods (e.g., importance sampling, subgraph sampling), and architectural modifications (e.g., lightweight models, early exits, masked transformers). These advancements are significant because they enable the training of larger, more complex models and the application of deep learning to resource-constrained environments and time-sensitive tasks, ultimately accelerating progress across various scientific fields and practical applications.

Papers

March 8, 2024

Linearly Constrained Weights: Reducing Activation Shift for Faster Training of Neural Networks
Takuro Kutsuna
Neural Network Convolutional Neural Network Convolutional Layer Batch Normalization Faster Training Weight Distribution

February 21, 2024

An Effective Incorporating Heterogeneous Knowledge Curriculum Learning for Sequence Labeling
Xuemei Tang, Qi Su
Sequence Labeling Faster Training Part of Speech Sequence Labeling Task Chinese Word Segmentation

February 10, 2024

Understanding the Training Speedup from Sampling with Approximate Losses
Rudrajit Das, Xi Chen, Bertram Ieong, Parikshit Bansal, Sujay Sanghavi
Faster Training Non Convex Loss Function Planning Loss Greedy Approach Loss Estimation

December 14, 2023

RTRA: Rapid Training of Regularization-based Approaches in Continual Learning
Sahil Nokhwal, Nirman Kumar
Continual LEArning Catastrophic Forgetting Regularization Technique Faster Training Weight Consolidation

December 12, 2023

Fast Training of Diffusion Transformer with Extreme Masking for 3D Point Clouds Generation
Shentong Mo, Enze Xie, Yue Wu, Junsong Chen, Matthias Nießner, Zhenguo Li
Diffusion Model 3D Point Cloud Diffusion Transformer Faster Training 3D Diffusion Model Erase Based Masking

November 7, 2023

Harnessing Manycore Processors with Distributed Memory for Accelerated Training of Sparse and Recurrent Models
Jan Finkbeiner, Thomas Gmeinder, Mark Pupilli, Alexander Titterton, Emre Neftci
Many Sparse Faster Training Activation Sparsity Sparse Activation Tensor Processing Unit AI Hardware Sparse Tensor Shared Memory

November 4, 2023

Estimating Ground Reaction Forces from Inertial Sensors
Bowen Song, Marco Paolieri, Harper E. Stewart, Leana Golubchik, Jill L. McNitt-Gray, Vishal Misra, Devavrat Shah
Inertial Measurement Unit Faster Training Inertial Sensor Biomechanical Analysis Ground Reaction Force

October 5, 2023

Expedited Training of Visual Conditioned Language Generation via Redundancy Reduction
Yiren Jian, Tingkai Liu, Yunzhe Tao, Chunhui Zhang, Soroush Vosoughi, Hongxia Yang
Vision Language Model Vision Language Language Generation Faster Training Redundancy Reduction

September 30, 2023

PixArt-$\alpha$: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis
Junsong Chen, Jincheng Yu, Chongjian Ge, Lewei Yao, Enze Xie, Yue Wu, Zhongdao Wang, James Kwok, Ping Luo, Huchuan Lu, Zhenguo Li
Text to Image Diffusion Transformer Image Text Alignment Faster Training T2I Diffusion Model PIXART $\Alpha$

August 21, 2023

Faster Training of Neural ODEs Using Gau{\ss}-Legendre Quadrature
Alexander Norcliffe, Marc Peter Deisenroth
Neural ODE Ordinary Differential Equation Faster Training Neural SDEs Adjoint Method

August 16, 2023

Fast Training of NMT Model with Data Sorting
Daniela N. Rim, Kimera Richard, Heeyoul Choi
Machine Translation Transformer Architecture Neural Machine Translation Faster Training Auxiliary Sorting Network Rearranges NMT Model Japanese Chinese

June 22, 2023

June 15, 2023

Fast Training of Diffusion Models with Masked Transformers
Hongkai Zheng, Weili Nie, Arash Vahdat, Anima Anandkumar
Diffusion Model Transformer Encoder Faster Training Generative Learning Transformer Based Diffusion Model Masked Transformer

June 5, 2023

Faster Training of Diffusion Models and Improved Density Estimation via Parallel Score Matching
Etrit Haxholli, Marco Lorenzi
Diffusion Model Diffusion Probabilistic Model Density Estimation Score Matching Faster Training Unknown Network Time Dependent Neural

May 10, 2023

NeRF2: Neural Radio-Frequency Radiance Fields
Xiaopeng Zhao, Zhenlin An, Qingrui Pan, Lei Yang
Neural Radiance Field Light Field Faster Training Wireless Signal Physical Neural Network

April 17, 2023

eTOP: Early Termination of Pipelines for Faster Training of AutoML Systems
Haoxiang Zhang, Juliana Freire, Yash Garg
Artificial Intelligence Machine Learning Model Faster Training AutoML System Early Termination Energy Pipeline

March 22, 2023

Low Rank Optimization for Efficient Deep Learning: Making A Balance between Compact Architecture and Fast Training
Xinwei Ou, Zhangxin Chen, Ce Zhu, Yipeng Liu
Deep Learning Low Rank Low Rank Approximation Balancing Strategy Faster Training Efficient Deep Compression Performance Efficient Deep Learning

March 5, 2023

Multiplexed gradient descent: Fast online training of modern datasets on hardware neural networks without backpropagation
Adam N. McCaughan, Bakhrom G. Oripov, Natesh Ganesh, Sae Woo Nam, Andrew Dienstfrey, Sonia M. Buckley
Neural Network Gradient Descent Back Propagation Faster Training New Datasets Chip Learning Digital Back Propagation

February 9, 2023

SparseProp: Efficient Sparse Backpropagation for Faster Training of Neural Networks
Mahdi Nikdan, Tommaso Pegolotti, Eugenia Iofinova, Eldar Kurtic, Dan Alistarh
Neural Network Back Propagation Sparsity Increase Sparse Network Faster Training Sparse Training Network Sparsity Sparse Backpropagation

Faster Training

Papers

Linearly Constrained Weights: Reducing Activation Shift for Faster Training of Neural Networks

An Effective Incorporating Heterogeneous Knowledge Curriculum Learning for Sequence Labeling

Understanding the Training Speedup from Sampling with Approximate Losses

RTRA: Rapid Training of Regularization-based Approaches in Continual Learning

Fast Training of Diffusion Transformer with Extreme Masking for 3D Point Clouds Generation

Harnessing Manycore Processors with Distributed Memory for Accelerated Training of Sparse and Recurrent Models

Estimating Ground Reaction Forces from Inertial Sensors

Expedited Training of Visual Conditioned Language Generation via Redundancy Reduction

PixArt-$\alpha$: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis

Faster Training of Neural ODEs Using Gau{\ss}-Legendre Quadrature

Fast Training of NMT Model with Data Sorting

Robust Semantic Segmentation: Strong Adversarial Attacks and Fast Training of Robust Models

Accelerated Training via Incrementally Growing Neural Networks using Variance Transfer and Learning Rate Adaptation

Fast Training of Diffusion Models with Masked Transformers

Faster Training of Diffusion Models and Improved Density Estimation via Parallel Score Matching

NeRF2: Neural Radio-Frequency Radiance Fields

eTOP: Early Termination of Pipelines for Faster Training of AutoML Systems

Low Rank Optimization for Efficient Deep Learning: Making A Balance between Compact Architecture and Fast Training

Multiplexed gradient descent: Fast online training of modern datasets on hardware neural networks without backpropagation

SparseProp: Efficient Sparse Backpropagation for Faster Training of Neural Networks