Pre Training Corpus

Pre-training corpora are the massive datasets used to initially train large language models (LLMs), significantly impacting their capabilities. Current research focuses on improving corpus quality through automated methods like neural web scraping and model-driven data refinement, aiming to reduce biases, harmful content, and data contamination while enhancing efficiency. These efforts are crucial for building more reliable and robust LLMs, addressing concerns about data quality and ethical implications, and ultimately improving the performance and trustworthiness of downstream applications.

Papers

October 19, 2023

A Predictive Factor Analysis of Social Biases and Task-Performance in Pretrained Masked Language Models
Yi Zhou, Jose Camacho-Collados, Danushka Bollegala
Training Data Social Bias Masked Language Pre Training Corpus Factor Model Task Performance

October 12, 2023

Impact of Co-occurrence on Factual Knowledge of Large Language Models
Cheongwoong Kang, Jaesik Choi
Large Language Model Language Model Global Impact Co Occurrence Factual Knowledge Pre Training Corpus

September 21, 2023

MiChao-HuaFen 1.0: A Specialized Pre-trained Corpus Dataset for Domain-specific Large Models
Yidong Liu, FuKai Shang, Fang Wang, Rui Xu, Jun Wang, Wei Li, Yao Li, Conghui He
Deep Learning Large Model Pre Training Corpus Chinese Legal Domain

September 18, 2023

Adapting Large Language Models via Reading Comprehension
Daixuan Cheng, Shaohan Huang, Furu Wei
Large Language Model Large Corpus Knowledge Comprehension Capability Pre Training Corpus Domain Corpus

June 6, 2023

"A Little is Enough": Few-Shot Quality Estimation based Corpus Filtering improves Machine Translation
Akshay Batheja, Pushpak Bhattacharyya
Machine Translation Parallel Corpus Quality Estimation Pre Training Corpus Little Help Word Level Quality

May 12, 2023

LeXFiles and LegalLAMA: Facilitating English Multinational Legal Language Model Development
Ilias Chalkidis, Nicolas Garneau, Catalina Goanta, Daniel Martin Katz, Anders Søgaard
Large Language Model Legal Reasoning Pre Training Corpus Legal Language Model

May 2, 2023

Huatuo-26M, a Large-scale Chinese Medical QA Dataset
Jianquan Li, Xidong Wang, Xiangbo Wu, Zhiyi Zhang, Xiaolong Xu, Jie Fu, Prayag Tiwari, Xiang Wan, Benyou Wang
Pre Trained Language Model Medical Question Answering Pre Training Corpus

April 17, 2023

The MiniPile Challenge for Data-Efficient Language Models
Jean Kaddour
Language Model Pre Trained Language Model Pre Training Corpus

March 26, 2023

Koala: An Index for Quantifying Overlaps with Pre-training Corpora
Thuy-Trang Vu, Xuanli He, Gholamreza Haffari, Ehsan Shareghi
Large Corpus Pre Training Training Corpus Pre Training Corpus Index Decomposition Suffix Prediction

January 19, 2023

Improving Machine Translation with Phrase Pair Injection and Corpus Filtering
Akshay Batheja, Pushpak Bhattacharyya
Machine Translation Neural Machine Translation Parallel Corpus Pre Training Corpus

January 4, 2023

A comprehensive review of automatic text summarization techniques: method, data, evaluation and coding
Daniel O. Cajueiro, Arthur G. Nery, Igor Tavares, Maísa K. De Melo, Silvia A. dos Reis, Li Weigang, Victor R. R. Celestino
Global Evaluation Raw Data Practical Method Text Summarization Comprehensive Review Summarization Task Pre Training Corpus Summarization Method Hidden Citation

December 20, 2022

Perplexed by Quality: A Perplexity-based Method for Adult and Harmful Content Detection in Multilingual Heterogeneous Web Data
Tim Jansen, Yangling Tong, Victoria Zevallos, Pedro Ortiz Suarez
Language Model Quality Issue Multilingual Data Pre Training Corpus Older Adult Perplexity Analysis Harmful Data Content Detection Noisy Web

December 19, 2022

Do CoNLL-2003 Named Entity Taggers Still Work Well in 2023?
Shuheng Liu, Alan Ritter
Entity Recognition Named Entity Recognition Pre Trained Transformer Pre Training Corpus

November 26, 2022

Gender Biases Unexpectedly Fluctuate in the Pre-training Stage of Masked Language Models
Kenan Tang, Hanchun Jiang
Pre Training Gender Bias Masked Language Modeling Assumption Pre Training Corpus Harm Free Pronoun Use

November 15, 2022

Large Language Models Struggle to Learn Long-Tail Knowledge
Nikhil Kandpal, Haikang Deng, Adam Roberts, Eric Wallace, Colin Raffel
Large Language Model Language Model Pre Training Corpus

October 12, 2022

Investigating Massive Multilingual Pre-Trained Machine Translation Models for Clinical Domain via Transfer Learning
Lifeng Han, Gleb Erofeev, Irina Sorokina, Serge Gladkoff, Goran Nenadic
Transfer Learning Clinical Text Multilingual Pre Trained Language Model Pre Training Corpus Pre Trained Multilingual Unsupervised NMT

September 28, 2022

Downstream Datasets Make Surprisingly Good Pretraining Corpora
Kundan Krishna, Saurabh Garg, Jeffrey P. Bigham, Zachary C. Lipton
Training Data Large Corpus Natural Language Processing Task Structured Output Self Supervised Pretraining Pre Training Corpus

April 28, 2022

On the Effect of Pretraining Corpora on In-context Learning by a Large-scale Language Model
Seongjin Shin, Sang-Woo Lee, Hwijeen Ahn, Sungdong Kim, HyoungSeok Kim, Boseop Kim, Kyunghyun Cho, Gichang Lee, Woomyoung Park, Jung-Woo Ha, Nako Sung
Context Learning Shot Learning Mixed Effect Large Scale Language Model Training Corpus Shot in Context Learning Pre Training Corpus Context Learning Ability

February 8, 2022

Exploring the Limits of Domain-Adaptive Training for Detoxifying Large-Scale Language Models
Boxin Wang, Wei Ping, Chaowei Xiao, Peng Xu, Mostofa Patwary, Mohammad Shoeybi, Bo Li, Anima Anandkumar, Bryan Catanzaro
Language Model Continuum Limit Large Scale Language Model Domain Adaptive Model Adaptation Pre Training Corpus Toxicity Detection Datasets

Pre Training Corpus

Papers

A Predictive Factor Analysis of Social Biases and Task-Performance in Pretrained Masked Language Models

Impact of Co-occurrence on Factual Knowledge of Large Language Models

MiChao-HuaFen 1.0: A Specialized Pre-trained Corpus Dataset for Domain-specific Large Models

Adapting Large Language Models via Reading Comprehension

"A Little is Enough": Few-Shot Quality Estimation based Corpus Filtering improves Machine Translation

LeXFiles and LegalLAMA: Facilitating English Multinational Legal Language Model Development

Huatuo-26M, a Large-scale Chinese Medical QA Dataset

The MiniPile Challenge for Data-Efficient Language Models

Koala: An Index for Quantifying Overlaps with Pre-training Corpora

Improving Machine Translation with Phrase Pair Injection and Corpus Filtering

A comprehensive review of automatic text summarization techniques: method, data, evaluation and coding

Perplexed by Quality: A Perplexity-based Method for Adult and Harmful Content Detection in Multilingual Heterogeneous Web Data

Do CoNLL-2003 Named Entity Taggers Still Work Well in 2023?

Gender Biases Unexpectedly Fluctuate in the Pre-training Stage of Masked Language Models

Large Language Models Struggle to Learn Long-Tail Knowledge

Investigating Massive Multilingual Pre-Trained Machine Translation Models for Clinical Domain via Transfer Learning

Downstream Datasets Make Surprisingly Good Pretraining Corpora

On the Effect of Pretraining Corpora on In-context Learning by a Large-scale Language Model

Exploring the Limits of Domain-Adaptive Training for Detoxifying Large-Scale Language Models