Novel Partial Expert Checkpoint

Novel partial expert checkpointing techniques aim to improve the efficiency and fault tolerance of training extremely large language models, particularly those employing sparse Mixture-of-Experts (MoE) architectures. Research focuses on optimizing checkpoint size and I/O operations, including developing faster storage mechanisms and asynchronous checkpointing strategies to minimize interruptions during training. These advancements are crucial for enabling the practical training and deployment of increasingly massive models, reducing computational costs and improving overall training efficiency.

Papers

August 8, 2024

MoC-System: Efficient Fault Tolerance for Sparse Mixture-of-Experts Model Training
Weilin Cai, Le Qin, Jiayi Huang
Many Sparse Model Training Model Checkpoint Fault Tolerance Intermediate Checkpoint Novel Partial Expert Checkpoint

July 29, 2024

ByteCheckpoint: A Unified Checkpointing System for Large Foundation Model Development
Borui Wan, Mingji Han, Yiyao Sheng, Yanghua Peng, Haibin Lin, Mofan Zhang, Zhichao Lai, Menghan Yu, Junda Zhang, Zuquan Song, Xin Liu, Chuan Wu
State of the Art LLM Model Checkpoint Novel Partial Expert Checkpoint

June 19, 2024

FastPersist: Accelerating Model Checkpointing in Deep Learning
Guanhua Wang, Olatunji Ruwase, Bing Xie, Yuxiong He
Deep Learning Model Checkpoint Fast FedUL Novel Partial Expert Checkpoint

May 24, 2024

Profiling checkpointing schedules in adjoint ST-AD
Laurent Hascoët, Jean-Luc Bouchot, Shreyas Sunil Gaikwad, Sri Hari Krishna Narayanan, Jan Hückelheim
Model Checkpoint Adjoint Form Reversible Language Novel Partial Expert Checkpoint

March 28, 2024

Checkpoint Merging via Bayesian Optimization in LLM Pretraining
Deyuan Liu, Zecheng Wang, Bingning Wang, Weipeng Chen, Chunshan Li, Zhiying Tu, Dianhui Chu, Bo Li, Dianbo Sui
Large Language Model Pre Trained Bayesian Optimization Model Checkpoint Training Trajectory Intermediate Checkpoint Novel Partial Expert Checkpoint

October 16, 2023

TRANSOM: An Efficient Fault-Tolerant System for Training LLMs
Baodong Wu, Lei Xia, Qingping Li, Kangyu Li, Xu Chen, Yongqiang Guo, Tieyao Xiang, Yuheng Chen, Shigang Li
Large Language Model LLM Training Fault Tolerance LLM Robustness Novel Partial Expert Checkpoint