Parallel Training

Parallel training aims to accelerate the computationally intensive process of training large machine learning models by distributing the workload across multiple processors or devices. Current research focuses on optimizing this process for various model architectures, including large language models (LLMs) and convolutional neural networks (CNNs), through techniques like model and data parallelism, along with strategies to mitigate communication bottlenecks and hardware failures. Efficient parallel training is crucial for advancing the capabilities of AI systems, enabling the development and deployment of larger, more powerful models for diverse applications while reducing training time and costs.

Papers

November 8, 2022

Simulation-Based Parallel Training
Lucas Meyer, Alejandro Ribés, Bruno Raffin
Neural Architecture Parallel Training Numerical Simulation Complex Dynamical System Global Attractor Chaotic Lorenz

November 6, 2022

Deliberation Networks and How to Train Them
Qingyun Dou, Mark Gales
Sequence to Sequence Model Parallel Training Deliberation Model

October 27, 2022

Audio Signal Enhancement with Learning from Positive and Unlabelled Data
Nobutaka Ito, Masashi Sugiyama
LeArning Abstract Parallel Training Clean Speech Positive Emotional Language Music Enhancement

August 8, 2022

A Frequency-aware Software Cache for Large Recommendation System Embeddings
Jiarui Fang, Geng Zhang, Jiatong Han, Shenggui Li, Zhengda Bian, Yongbin Li, Jin Liu, Yang You
Recommendation Model Parallel Training GPU Memory Software Cache

August 5, 2022

Branch-Train-Merge: Embarrassingly Parallel Training of Expert Language Models
Margaret Li, Suchin Gururangan, Tim Dettmers, Mike Lewis, Tim Althoff, Noah A. Smith, Luke Zettlemoyer
Large Language Model Efficient Inference Parallel Training Transformer Based LLM Expert Language Model

July 25, 2022

Dive into Big Model Training
Qinghua Liu, Yuxiang Jiang
Large Model Model Training Parallel Training DIVeR Identification

March 7, 2022

Parallel Training of GRU Networks with a Multi-Grid Solver for Long Sequences
Gordon Euhyun Moon, Eric C. Cyr
Neural Network Long Sequence Gated Recurrent Unit Parallel Training Multigrid Method Model Parallel

January 31, 2022

Neural Network Training with Asymmetric Crosspoint Elements
Murat Onen, Tayfun Gokmen, Teodor K. Todorov, Tomasz Nowicki, Jesus A. del Alamo, John Rozen, Wilfried Haensch, Seyoung Kim
Neural Network Parallel Training Hamiltonian Learning Crossbar Array Synaptic Connectivity Asymmetric Crosspoint Element

January 29, 2022

Distributed SLIDE: Enabling Training Large Neural Networks on Low Bandwidth and Simple CPU-Clusters via Model Parallelism and Sparsity
Minghao Yan, Nicholas Meisburger, Tharun Medini, Anshumali Shrivastava
Neural Network Sparsity Increase Parallel Training Model Parallelism Scalable Neural Computing Cluster Model Parallel

January 21, 2022

Accelerate Model Parallel Training by Using Efficient Graph Traversal Order in Device Placement
Tianze Wang, Amir H. Payberah, Desta Haileselassie Hagos, Vladimir Vlassov
Neural Network Parallel Training Leader Follower Modern Neural Network Neural Graph Device Placement Efficient Graph Traversal Order

December 19, 2021

Efficient Strong Scaling Through Burst Parallel Training
Seo Jin Park, Joshua Fried, Sunghyun Kim, Mohammad Alizadeh, Adam Belay
Parallel Training Multi GPU GPU Cluster Batch Size Strong Scaling

December 11, 2021

Efficient Device Scheduling with Multi-Job Federated Learning
Chendi Zhou, Ji Liu, Juncheng Jia, Jingbo Zhou, Yang Zhou, Huaiyu Dai, Dejing Dou
Decentralized Data Parallel Training Federated Multi Task Learning Device Scheduling

December 10, 2021

Layer-Parallel Training of Residual Networks with Auxiliary-Variable Networks
Qi Sun, Hexin Dong, Zewei Chen, Jiacheng Sun, Zhenguo Li, Bin Dong
Joint Learning Parallel Training ResNet Model Auxiliary Network

November 10, 2021

Persia: An Open, Hybrid System Scaling Deep Learning-based Recommenders up to 100 Trillion Parameters
Xiangru Lian, Binhang Yuan, Xuefeng Zhu, Yulong Wang, Yongjun He, Honghuan Wu, Lei Sun, Haodong Lyu, Chengjun Liu, Xing Dong, Yiqiao Liao, Mingnan Luo, Congfei Zhang, Jingru Xie, Haonan Li, Lei Chen, Renjie Huang, Jianying Lin, Chengchun Shu, Xuezhong Qiu, Zhishan Liu, Dongying Kong, Lei Yuan, Hai Yu, Sen Yang, Ce Zhang, Ji Liu
Deep Learning Many Parameter Recommendation Model Parallel Training Hybrid System Dense Neural Network Persian Text