Large Scale Pre Training

Large-scale pre-training leverages massive datasets to train powerful foundation models that can be fine-tuned for diverse downstream tasks, improving efficiency and performance compared to training from scratch. Current research focuses on developing effective pre-training strategies for various modalities (images, text, medical data, etc.), employing architectures like Transformers and incorporating techniques such as masked autoencoding and knowledge distillation. This approach is significantly impacting fields like medical image analysis, natural language processing, and computer vision by enabling the development of more accurate and robust models with reduced data requirements and training time.

Papers

October 17, 2022

ZooD: Exploiting Model Zoo for Out-of-Distribution Generalization
Qishi Dong, Awais Muhammad, Fengwei Zhou, Chuanlong Xie, Tianyang Hu, Yongxin Yang, Sung-Ho Bae, Zhenguo Li
Pre Trained Model Distribution Generalization Large Scale Pre Training Model Zoo Leave One Out Cross Validation Input Ranking Model

October 10, 2022

Transformer-based Localization from Embodied Dialog with Large-scale Pre-training
Meera Hahn, James M. Rehg
Localization Focus Scene Graph Large Scale Pre Training 2 Dimensional Map Dialog Based Localization

April 30, 2022

Continual Learning with Foundation Models: An Empirical Study of Latent Replay
Oleksiy Ostapenko, Timothee Lesort, Pau Rodríguez, Md Rifat Arefin, Arthur Douillard, Irina Rish, Laurent Charlin
Continual LEArning Foundation Model Pre Trained Empirical Study Pre Trained Convolutional Neural Network Large Scale Pre Training Downstream Policy Learning Latent Replay

March 17, 2022

EVA2.0: Investigating Open-Domain Chinese Dialogue Systems with Large-Scale Pre-Training
Yuxian Gu, Jiaxin Wen, Hao Sun, Yi Song, Pei Ke, Chujie Zheng, Zheng Zhang, Jianzhu Yao, Lei Liu, Xiaoyan Zhu, Minlie Huang
Open Domain Open Domain Dialogue Open Domain Dialogue System Large Scale Pre Training Conversational Chatbots

March 10, 2022

Knowledge Distillation as Efficient Pre-training: Faster Convergence, Higher Data-efficiency, and Better Transferability
Ruifei He, Shuyang Sun, Jihan Yang, Song Bai, Xiaojuan Qi
Knowledge Distillation High Efficiency Pre Trained Model Task Transferability Data Efficient Faster Convergence Large Scale Pre Training

December 23, 2021

ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation
Shuohuan Wang, Yu Sun, Yang Xiang, Zhihua Wu, Siyu Ding, Weibao Gong, Shikun Feng, Junyuan Shang, Yanbin Zhao, Chao Pang, Jiaxiang Liu, Xuyi Chen, Yuxiang Lu, Weixin Liu, Xi Wang, Yangfan Bai, Qiuliang Chen, Li Zhao, Shiyong Li, Peng Sun, Dianhai Yu, Yanjun Ma, Hao Tian, Hua Wu, Tian Wu, Wei Zeng, Ge Li, Wen Gao, Haifeng Wang
Language Model Pre Trained Language Model Language Understanding Faithful Generation Large Scale Pre Training Language Modeling Loss ERNIE ViLG Chinese Pre Trained Model Scale Knowledge

Large Scale Pre Training

Papers

ZooD: Exploiting Model Zoo for Out-of-Distribution Generalization

Transformer-based Localization from Embodied Dialog with Large-scale Pre-training

Continual Learning with Foundation Models: An Empirical Study of Latent Replay

EVA2.0: Investigating Open-Domain Chinese Dialogue Systems with Large-Scale Pre-Training

Knowledge Distillation as Efficient Pre-training: Faster Convergence, Higher Data-efficiency, and Better Transferability

ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation