Continual Pre Training

Continual pre-training (CPT) aims to efficiently adapt large language models (LLMs) to new domains or tasks by incrementally training them on additional data, rather than retraining from scratch. Current research focuses on optimizing CPT strategies, including learning rate scheduling, data mixing ratios, and mitigating catastrophic forgetting, often employing models like Llama and LLaMA-2, and exploring techniques such as model merging and parameter-efficient updates. This approach is significant because it reduces the substantial computational cost associated with training LLMs from scratch, enabling more frequent updates and adaptation to evolving data and tasks across various domains, including finance, medicine, and astronomy.

Papers

February 9, 2023

Towards Geospatial Foundation Models via Continual Pretraining
Matias Mendieta, Boran Han, Xingjian Shi, Yi Zhu, Chen Chen
Supervised ImageNet Pre Trained Representation Continual Pre Training Geospatial Foundation Model Large Scale ImageNet

February 7, 2023

Continual Pre-training of Language Models
Zixuan Ke, Yijia Shao, Haowei Lin, Tatsuya Konishi, Gyuhak Kim, Bing Liu
Language Model Continual Pre Training Continual Training Domain Corpus Domain Specific Continual Pre Training

November 21, 2022

AF Adapter: Continual Pretraining for Building Chinese Biomedical Language Model
Yongyu Yan, Kui Xue, Xiaoming Shi, Qi Ye, Jingping Liu, Tong Ruan
Language Model BERT Model Continual Pre Training Domain Specific Language Model Hadamard Adapter

October 19, 2022

Continued Pretraining for Better Zero- and Few-Shot Promptability
Zhaofeng Wu, Robert L. Logan, Pete Walsh, Akshita Bhagia, Dirk Groeneveld, Sameer Singh, Iz Beltagy
Prompt Tuning Continual Pre Training Natural Language Prompt Better Zero Shot Prompting Learnable Prompt Prompt Space

June 14, 2022

CERT: Continual Pre-Training on Sketches for Library-Oriented Code Generation
Daoguang Zan, Bei Chen, Dejian Yang, Zeqi Lin, Minsu Kim, Bei Guan, Yongji Wang, Weizhu Chen, Jian-Guang Lou
Code Generation Continual Pre Training Effective Sketch Code Generation Model Code Snippet Code Corpus

May 19, 2022

Continual Pre-Training Mitigates Forgetting in Language and Vision
Andrea Cossu, Tinne Tuytelaars, Antonio Carta, Lucia Passaro, Vincenzo Lomonaco, Davide Bacciu
Continual LEArning Pre Trained Model Human Language Vision Paper Self Supervised Pre Training Continual Pre Training

March 12, 2022

ELLE: Efficient Lifelong Pre-training for Emerging Data
Yujia Qin, Jiajie Zhang, Yankai Lin, Zhiyuan Liu, Peng Li, Maosong Sun, Jie Zhou
Pre Training Prompt Learning Lifelong Learning Continual Pre Training Novel Data