Large Scale Training

Large-scale training focuses on efficiently training massive machine learning models, often with billions of parameters, across distributed computing systems. Current research emphasizes techniques to reduce memory consumption (e.g., layerwise importance sampling), improve communication efficiency (e.g., communication-computation overlap, 0/1 Adam), and optimize training speed (e.g., active learning, model parallelism) for various architectures including transformers, graph neural networks, and GANs. These advancements are crucial for developing powerful models in diverse fields like natural language processing, medical imaging, and recommender systems, ultimately impacting the performance and accessibility of AI applications.

Papers

November 25, 2022

Learning General Audio Representations with Large-Scale Training of Patchout Audio Transformers
Khaled Koutini, Shahed Masoudian, Florian Schmid, Hamid Eghbal-zadeh, Jan Schlüter, Gerhard Widmer
Convolutional Neural Network Deep Neural Network Audio Representation Neural Network Representation Audio Transformer Attention Based Transformer Large Scale Training

October 28, 2022

FedVMR: A New Federated Learning method for Video Moment Retrieval
Yan Wang, Xin Luo, Zhen-Duo Chen, Peng-Fei Zhang, Meng Liu, Xin-Shun Xu
Federated Learning Decentralized FL Video Moment Retrieval Large Scale Training

October 26, 2022

tf.data service: A Case for Disaggregating ML Input Data Processing
Andrew Audibert, Yang Chen, Dan Graur, Ana Klimovic, Jiri Simsa, Chandramohan A. Thekkath
Machine Learning Case Relevance Machine Learning System Large Scale Training Machine Learning Accelerator

September 3, 2022

HammingMesh: A Network Topology for Large-Scale Deep Learning
Torsten Hoefler, Tommaso Bonato, Daniele De Sensi, Salvatore Di Girolamo, Shigang Li, Marco Heddes, Jon Belk, Deepak Goel, Miguel Castro, Steve Scott
Deep Neural Network Large Scale Network Topology Large Scale Training Unknown Network Large Scale Deep Learning Data Rate

June 9, 2022

BigVGAN: A Universal Neural Vocoder with Large-Scale Training
Sang-gil Lee, Wei Ping, Boris Ginsburg, Bryan Catanzaro, Sungroh Yoon
Generative Adversarial Network Generative Adversarial Audio Synthesis Modern Vocoders Large Scale Training

February 12, 2022

Maximizing Communication Efficiency for Large-scale Training via 0/1 Adam
Yucheng Lu, Conglong Li, Minjia Zhang, Christopher De Sa, Yuxiong He
Faster Training Gradient Compression Large Scale Training Slow Convergence Communication Optimization Convergence Criterion