Large Language Model Training

Large language model (LLM) training focuses on efficiently and reliably developing increasingly powerful models using massive datasets and computational resources. Current research emphasizes optimizing distributed training algorithms (like data, tensor, and pipeline parallelism) and mitigating bottlenecks such as communication overhead and memory limitations through techniques like compression, near-storage processing, and efficient communication topologies. This field is crucial for advancing AI capabilities, impacting various applications while also driving innovation in high-performance computing and addressing challenges related to data quality, copyright, and environmental sustainability.

Papers

March 11, 2024

Smart-Infinity: Fast Large Language Model Training using Near-Storage Processing on a Real System
Hongsun Jang, Jaeyong Song, Jaewon Jung, Jaeyoung Park, Youngsok Kim, Jinho Lee
Large Language Model Training Near Memory Storage Efficient

February 23, 2024

MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs
Ziheng Jiang, Haibin Lin, Yinmin Zhong, Qi Huang, Yangrui Chen, Zhi Zhang, Yanghua Peng, Xiang Li, Cong Xie, Shibiao Nong, Yulu Jia, Sun He, Hongmin Chen, Zhihao Bai, Qi Hou, Shipeng Yan, Ding Zhou, Yiyao Sheng, Zhuo Jiang, Haohan Xu, Haoran Wei, Zhang Zhang, Pengfei Nie, Leqi Zou, Sida Zhao, Liang Xiang, Zherui Liu, Zhe Li, Xiaoying Jia, Jianxi Ye, Xin Jin, Xin Liu
Large Language Model Large Scale Single GPU Large Language Model Training

January 30, 2024

EvoMerge: Neuroevolution for Large Language Models
Yushu Jiang
Fine Tuning Large Language Model Training

January 25, 2024

LocMoE: A Low-Overhead MoE for Large Language Model Training
Jing Li, Zhijie Sun, Xuan He, Li Zeng, Yi Lin, Entong Li, Binfan Zheng, Rongqian Zhao, Xin Chen
Large Language Model Mixture of Expert Dynamic Routing Large Language Model Training

January 4, 2024

Understanding LLMs: A Comprehensive Overview from Training to Inference
Yiheng Liu, Hao He, Tianle Han, Xu Zhang, Mengyuan Liu, Jiaming Tian, Yutong Zhang, Jiaqi Wang, Xiaohui Gao, Tianyang Zhong, Yi Pan, Shaochen Xu, Zihao Wu, Zhengliang Liu, Xin Zhang, Shu Zhang, Xintao Hu, Tuo Zhang, Ning Qiang, Tianming Liu, Bao Ge
Training Data Scientific Inference Parallel Training Large Language Model Training

January 1, 2024

Digger: Detecting Copyright Content Mis-usage in Large Language Model Training
Haodong Li, Gelei Deng, Yi Liu, Kailong Wang, Yuekang Li, Tianwei Zhang, Yang Liu, Guoai Xu, Guosheng Xu, Haoyu Wang
Training Data Diverse Datasets LLM Training Large Language Model Training

October 27, 2023

FP8-LM: Training FP8 Large Language Models
Houwen Peng, Kan Wu, Yixuan Wei, Guoshuai Zhao, Yuxiang Yang, Ze Liu, Yifan Xiong, Ziyue Yang, Bolin Ni, Jingcheng Hu, Ruihang Li, Miaosen Zhang, Chen Li, Jia Ning, Ruizhe Wang, Zheng Zhang, Shuguang Liu, Joe Chau, Han Hu, Peng Cheng
Instruction Tuning Large Language Model Training Low Precision Training Mixed Precision Training FP8 Format

October 9, 2023

Rethinking Memory and Communication Cost for Efficient Large Language Model Training
Chan Wu, Hanxiao Zhang, Lin Ju, Jinjing Huang, Youshao Xiao, Zhaoxin Huan, Siyuan Li, Fanzhuang Meng, Lei Liang, Xiaolu Zhang, Jun Zhou
Large Language Model Communication Cost Large Language Model Training Whale Optimization Algorithm Memory and Communication

August 23, 2023

How to Protect Copyright Data in Optimization of Large Language Models?
Timothy Chu, Zhao Song, Chiwun Yang
Large Language Model Generative AI Optimization Purpose Softmax Function Large Language Model Training Transformer Neural Network Architecture

July 18, 2023

Integration of Large Language Models and Federated Learning
Chaochao Chen, Xiaohua Feng, Yuyuan Li, Lingjuan Lyu, Jun Zhou, Xiaolin Zheng, Jianwei Yin
Large Language Model Large Scale Language Model Decentralized Data Large Language Model Training Collaborative Training Federated Large Language Model