Training Corpus

Training corpora are the massive datasets used to train large language models (LLMs), with current research focusing on improving their quality, diversity, and suitability for specific tasks. This involves developing methods for data selection and curation, including techniques that leverage data influence scores and address issues like data contamination and bias. The effective construction of training corpora is crucial for building high-performing and reliable LLMs, impacting various fields from scientific research to medical applications and beyond.

Papers

August 8, 2023

Large Language Model Prompt Chaining for Long Legal Document Classification
Dietrich Trautmann
Large Language Model Language Model Context Learning Text Classification Training Corpus

August 1, 2023

JIANG: Chinese Open Foundation Language Model
Qinhua Duan, Wenchao Gu, Yujia Chen, Wenxin Mao, Zewen Tian, Hui Cao
Large Language Model Chinese Character Training Corpus Chinese Corpus

July 20, 2023

Gender-tuning: Empowering Fine-tuning for Debiasing Pre-trained Language Models
Somayeh Ghanbarzadeh, Yan Huang, Hamid Palangi, Radames Cruz Moreno, Hamed Khanpour
Pre Trained Language Model Gender Information Training Corpus Self Debiasing

May 26, 2023

Training Socially Aligned Language Models on Simulated Social Interactions
Ruibo Liu, Ruixin Yang, Chenyan Jia, Ge Zhang, Denny Zhou, Andrew M. Dai, Diyi Yang, Soroush Vosoughi
Language Model Training Data Training Corpus Novel Training Social Alignment

May 24, 2023

May 19, 2023

LLM-Pruner: On the Structural Pruning of Large Language Models
Xinyin Ma, Gongfan Fang, Xinchao Wang
Large Language Model Training Corpus Structural Pruning LD Pruner

May 11, 2023

INGENIOUS: Using Informative Data Subsets for Efficient Pre-Training of Language Models
H S V N S Kowndinya Renduchintala, Krishnateja Killamsetty, Sumit Bhatia, Milan Aggarwal, Ganesh Ramakrishnan, Rishabh Iyer, Balaji Krishnamurthy
Language Model Training Data Pre Trained Language Model Pre Training Training Corpus Informative Subset

April 23, 2023

NAIST-SIC-Aligned: an Aligned English-Japanese Simultaneous Interpretation Corpus
Jinming Zhao, Yuka Ko, Kosuke Doi, Ryo Fukuda, Katsuhito Sudoh, Satoshi Nakamura
Training Corpus Simultaneous Machine Translation

April 7, 2023

AI Model Disgorgement: Methods and Choices
Alessandro Achille, Michael Kearns, Carson Klingenberg, Stefano Soatto
Machine Learning Model NCD Method Training Corpus Value Laden Choice

April 6, 2023

On the Pareto Front of Multilingual Neural Machine Translation
Liang Chen, Shuming Ma, Dongdong Zhang, Furu Wei, Baobao Chang
Multilingual Model Training Corpus Multilingual Neural Machine Translation Pareto Front Multi Task Optimization

March 26, 2023

Koala: An Index for Quantifying Overlaps with Pre-training Corpora
Thuy-Trang Vu, Xuanli He, Gholamreza Haffari, Ehsan Shareghi
Large Corpus Pre Training Training Corpus Pre Training Corpus Index Decomposition Suffix Prediction

December 7, 2022

M3ST: Mix at Three Levels for Speech Translation
Xuxin Cheng, Qianqian Dong, Fengpeng Yue, Tom Ko, Mingxuan Wang, Yuexian Zou
Speech Translation Training Corpus Machine Translation System Multiple Level End Speech to Text Translation Speech Translation Benchmark

November 10, 2022

ADEPT: A DEbiasing PrompT Framework
Ke Yang, Charles Yu, Yi Fung, Manling Li, Heng Ji
New Framework Word Embeddings Training Corpus Self Debiasing Debiasing Method Discrete Prompt

October 31, 2022

Predicting Multi-Codebook Vector Quantization Indexes for Knowledge Distillation
Liyong Guo, Xiaoyu Yang, Quandong Wang, Yuxiang Kong, Zengwei Yao, Fan Cui, Fangjun Kuang, Wei Kang, Long Lin, Mingshuang Luo, Piotr Zelasko, Daniel Povey
Knowledge Distillation Automatic Speech Recognition Human Prediction Training Corpus Librispeech Speech Recognition Index Modulation

October 19, 2022

Linguistic Rules-Based Corpus Generation for Native Chinese Grammatical Error Correction
Shirong Ma, Yinghui Li, Rongyi Sun, Qingyu Zhou, Shulin Huang, Ding Zhang, Li Yangning, Ruiyang Liu, Zhongli Li, Yunbo Cao, Haitao Zheng, Ying Shen
Training Corpus Chinese Grammatical Error Correction Corpus Creation

October 13, 2022

Mitigating Unintended Memorization in Language Models via Alternating Teaching
Zhe Liu, Xuedong Zhang, Fuchun Peng
Language Model Training Corpus Sequential Model Unintended Memorization Class Disjoint Data

September 13, 2022

Design of Negative Sampling Strategies for Distantly Supervised Skill Extraction
Jens-Joris Decorte, Jeroen Van Hautte, Johannes Deleu, Chris Develder, Thomas Demeester
Product Design Negative Sampling Training Corpus Implicit Knowledge Skill Extraction Skill Label

September 7, 2022

Adam Mickiewicz University at WMT 2022: NER-Assisted and Quality-Aware Neural Machine Translation
Artur Nowakowski, Gabriela Pałka, Kamil Guttmann, Mikołaj Pokrywka
Translation Task Training Corpus Back Translation Document Level General Translation Task

August 29, 2022

Reweighting Strategy based on Synthetic Data Identification for Sentence Similarity
Taehee Kim, ChaeHun Park, Jimin Hong, Radhika Dua, Edward Choi, Jaegul Choo
Language Model Sentence Embeddings Machine Generated Training Corpus Dynamic Reweighting Sentence Similarity Synthetic Identity